Base de Datos Grid y Paralelas2

BASE DE DATOS
GRID Y PARALELAS
Autores: Mato Luz

Palacios Carolina
BASE DE DATOS GRID.
Las Bases de Datos GRID es una tecnología Innovadora que permite utilizar de forma
coordinada diversos recursos del computador entre ellos capacidad de cómputo,
supercomputadoras, PDA, portátiles, móviles, software, datos e información
distribuidos de forma geográfica y conectados mediante redes WAN (red de área
extensa) como por ejemplo el Internet.
Usar una red Grid, un usuario puede hacer uso de recursos libres situados en los
computadores que se encuentren dentro de esta red Grid, sin importar la localización
del mismo. De este modo, el usuario dispone de un computador ficticio con la
potencia, disco duro o memoria RAM necesitada.
El Grid no sólo se trata de compartir ciclos de CPU para realizar cálculos complejos
sino que se busca la creación de una infraestructura distribuida.
Los posibles campos de aplicación podrían ser:
Supercomputación Distribuida: Simulaciones, Herramientas de cálculo numérico,

Procesos de análisis de datos, Extracción de conocimientos de almacenes de datos, etc.
Sistemas Distribuidos en Tiempo Real: Medicina (tratamiento de imagen para
visión artificial).
Proceso Intensivo de Datos: Gestores de bases de datos distribuidos.
Servicios Puntuales: Este tipo de aplicaciones son aquellas que permiten acceder a
hardware específico para la realización de labores a distancia.
Entornos Virtuales de Colaboración: Tele inmersión.
Al conectar e instalar el software del Grid:
Un usuario se conecta (autenticarse con propósito de seguridad) primero como un

usuario de Grid, e instala el software en su propia máquina.
Una vez el usuario y/o la máquina se autentican, el software del Grid se proporciona al
usuario para instalar en su máquina con propósitos de usar el Grid, así como servir a
éste.
El usuario también puede que necesite informar al administrador que ID`s de usuario
son suyos en otras máquinas que existen en el Grid.
El objetivo es compartir una serie de recursos en la red de manera uniforme, segura,

transparente, eficiente y fiable, ofreciendo un único punto de acceso a un conjunto de
recursos distribuidos geográficamente en diferentes dominios de administración. Esto
nos puede llevar a pensar que la computación Grid permite la creación de empresas
virtuales. Es importante saber que una Grid es un conjunto de maquinas distribuidas
que ayudan a mejorar el trabajo sobre software pesados
Ventajas:
Las principales ventajas que nos brindan las BD GRIF son las siguientes:
Proporciona un mecanismo de colaboración transparente entre grupos

dispersos, tanto científicos como comerciales.
Facilita el acceso a recursos distribuidos desde cualquier PC.
Nunca queda obsoleta, ya que se integran diferentes tipos de máquinas y de
recursos y todos los recursos se aprovechan. Si se renuevan todas las PCs de
una oficina, se pueden incorporar las antiguas y las nuevas.
Permite a las empresas acceder y compartir bases de datos remotas. Esto
es de gran importancia en las empresas que se dedican a la investigación, en
donde enormes cantidades de información son generadas y analizadas casi a
diario.
Tiende a incrementar la productividad otorgando a los usuarios finales
acceso a los recursos de computación, datos y almacenamiento que necesiten,
cuando los necesiten.
Se aprovechan los ciclos de procesamiento inutilizados de ordenadores que
se encuentran en diversas zonas geográficas.
Ejemplo: Ordenadores que normalmente se encuentran inutilizados por la

noche en una compañía en Europa, podrían ser utilizados en el día por una
sede de operaciones en América.
Desventajas:
Algunas de los problemas que tienen las bases de datos Grid son los siguientes:
Heterogeneidad: debe poder manejar recursos de cualquier tipo.

Comunicación lenta y no uniforme: al acceder a recursos que están situados en
otros puntos
La conexión puede resultar más lenta que con otros sistemas de bases de
datos.
Problemas organizativos: los recursos pueden pertenecer a distintas
organizaciones, y esto puede influir en cuestiones como el control de acceso,
distintas políticas de gestión de los recursos, etc.
Económicos: estos sistemas pueden resultar caros.
Los principales objetivos que debe cumplir una base de datos Grid son:
 Atomicidad: Asegura que la transacción se ejecuta como una operación única,

de tal forma que se realiza o no la operación, pero nunca se quedara a medias.
 Aislamiento: Todas las transacciones concurrentes deben ver el mismo
estado consistente de la base de datos, aislándose de los resultados
intermedios inconsistentes que se puedan producir
 Durabilidad: Asegura que una vez que una transacción se ha ejecutado, sus
efectos son permanentes en la base de datos.
Ejemplo:
La consulta que se desea aplicar sobre la base de datos y resolver en forma paralela es
la determinación de los productos para los cuales dicha relación no se cumple (i.e.,
perdida de productos).
La consulta utilizada como ejemplo trabaja sobre tres tablas que registran ventas de
productos e inventario. Las tablas son las siguientes:
PRODUCTOS( codigo, nombre, cantidad )

VENTAS( codigo, cantidad, depto )
INVENTARIO( codigo, cantidad )
// Superstep 1:
// Crea tabla temporal con resultados de sumas parciales de la cantidad vendida de
productos.
create table TEMP1 ( codigo, cantidad ) as select VENTAS.codigo, SUM(

VENTAS.cantidad )
from VENTAS group by VENTAS.codigo;
// Envia al procesador correspondiente las sumas parciales.
bsp_send( procesador= codigo mod NumProc, (codigo, cantidad) )foreach tuple in

select codigo, cantidad from TEMP1;
bsp_sync();
// Superstep 2:
// Recibe los mensajes en forma de tuplas (código, cantidad) enviados a sí mismo y

por otros procesadores.
bsp_move( alltuples(codigo,cantidad) ) doing update TEMP1 set TEMP1.cantidad =
TEMP1.cantidad+cantidad where TEMP1.codigo = codigo;
update TEMP1 set TEMP1.cantidad = TEMP1.cantidad + INVENTARIO.cantidad where

TEMP1.codigo = INVENTARIO.codigo;
create table RESULTADO ( codigo, nombre ) as select PRODUCTO.codigo,

PRODUCTO.nombre
from PRODUCTO, TEMP1 where PRODUCTO.codigo = TEMP1.codigo and
PRODUCTO.cantidad != TEMP1.cantidad;
bsp_sync();
BASE DE DATOS PARALELAS.
Es un sistema de gestión de bases de datos, consiste en una colección de datos

interrelacionados y un conjunto de programas que permiten a los usuarios acceder y
modificar dichos datos. La colección de datos se denomina base de datos.
En la arquitectura de un sistema de base de datos se reflejan aspectos como la
conexión en red sea en Base de datos Distribuidas como Base de datos Paralelas.
Un SGBDP se ejecuta sobre múltiples procesadores y discos que han sido diseñados
para ejecutar operaciones en paralelo, cuando sea posible, con el propósito de mejorar
el rendimiento.
Paralelismo en consultas
Hay muchas formas de paralelismo entre estos tenemos:
Paralelismo interconsultas: Es "el paralelismo entre las consultas", es decir,

diferentes consultas o transacciones se realizan en paralelo con otras.
Paralelismo intraconsultas: Es una consulta a una base de datos, como un select,
join, etc. normalmente se divide en múltiples operaciones.
Por lo tanto, el paralelismo intraconsultas es "paralelismo dentro de una consulta". El

uso del paralelismo en consultas es importante para acelerar las consultas de
ejecución larga.
Ventajas:
Los sistemas paralelos mejoran la velocidad de procesamiento y de E/S

mediante la utilización de UCP y discos en paralelo.
Los sistemas paralelos de base de datos constan de varios procesadores y
varios discos conectados a través de una red de interconexión de alta
velocidad.
Desventajas:
Costes de inicio. El inicio de un único proceso lleva asociado un coste de inicio.

Interferencia. Como los procesos que se ejecutan en un sistema paralelo
acceden. con
frecuencia a recursos compartidos, pueden sufrir un cierto retardo como
consecuencia de la esta.
Sesgo. Al dividir cada tarea en un cierto número de pasos paralelos se reduce
el tamaño del paso medio. Normalmente es difícil dividir una tarea en partes
exactamente iguales, entonces se dice que la forma de distribución de los
tamaños es sesgada.
Porque es recomendable usar BD Paralelas ?
Actualmente los Sistemas Paralelos se están comercializando con éxito por

prácticamente todos los fabricantes de BD. Tal cambio lo han impulsado las siguientes
tendencias:
 Los requisitos transaccionales de las empresas han aumentado, con el uso
creciente de las computadoras.
 El crecimiento de la WWW y los datos recogidos por los visitantes han

producido BD extremadamente grandes en muchas empresas.
 Las empresas utilizan volúmenes crecientes de datos para planificar sus
actividades y sus tarifas.
Las consultas utilizadas para estos fines se denominan consultas de Ayuda a la Toma
de Decisiones y las necesidades de datos para las mismas pueden llegar a los
terabytes.
Los sistemas con un único procesador no son capaces de tratar volúmenes de datos
tan grandes a la velocidad necesaria.
Varios sistemas comerciales y de investigación han demostrado la potencia y
dimensionalidad del procesamiento paralelo de consultas.
Con el abaratamiento de los microprocesadores, las máquinas paralelas se han vuelto
comunes y relativamente baratas.
El paralelismo también se utiliza para proporcionar ampliabilidad, y las cargas de
trabajo crecientes se tratan sin aumentar el tiempo de respuesta mediante un
aumento en el grado de paralelismo.
Modelos de Arquitectura
 Memoria compartida. Todos los procesadores comparten una memoria

común.
 Disco compartido. Todos los procesadores comparten un disco común.
 Sin compartimiento. Los procesadores no comparten ni memoria ni disco.
 Jerárquico. Es un híbrido de las anteriores.
El objetivo del paralelismo en los sistemas de bases de datos suele ser asegurar que
la ejecución del sistema continuará realizándose a una velocidad aceptable, incluso en
el caso de que aumente el tamaño de la base de datos o el número de transacciones
Referencias:
http://alarcos.inf-cr.uclm.es/doc/bbddavanzadas/RENDIMIENTO.pdf
http://macine.epublish.cl/tesis/index-3_3_.html
http://atlas.puj.edu.co/~caolarte/puj/cursos/cc100/files/clases/BDParalelas.pdf
http://ciencia.astroseti.org/planetary/articulo.php?num=320
Silberschatz, Kort, Sudarshan. Fundamentos de Base de Datos (4º y 5º Edición), España, Mc Graw
Hill, 2002 y 2007

Base de Datos Grid y Paralelas2

Caricato da

Informazioni sul documento

Descrizione originale:

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Base de Datos Grid y Paralelas2

Caricato da

Copyright:

Formati disponibili

BASE DE DATOS

Autores: Mato Luz

Los posibles campos de aplicación podrían ser:

Supercomputación Distribuida: Simulaciones, Herramientas de cálculo numérico,

Al conectar e instalar el software del Grid:

Un usuario se conecta (autenticarse con propósito de seguridad) primero como un

El objetivo es compartir una serie de recursos en la red de manera uniforme, segura,

Proporciona un mecanismo de colaboración transparente entre grupos

Ejemplo: Ordenadores que normalmente se encuentran inutilizados por la

Heterogeneidad: debe poder manejar recursos de cualquier tipo.

 Atomicidad: Asegura que la transacción se ejecuta como una operación única,

PRODUCTOS( codigo, nombre, cantidad )

create table TEMP1 ( codigo, cantidad ) as select VENTAS.codigo, SUM(

// Envia al procesador correspondiente las sumas parciales.

bsp_send( procesador= codigo mod NumProc, (codigo, cantidad) )foreach tuple in

// Recibe los mensajes en forma de tuplas (código, cantidad) enviados a sí mismo y

update TEMP1 set TEMP1.cantidad = TEMP1.cantidad + INVENTARIO.cantidad where

create table RESULTADO ( codigo, nombre ) as select PRODUCTO.codigo,

BASE DE DATOS PARALELAS.

Es un sistema de gestión de bases de datos, consiste en una colección de datos

Hay muchas formas de paralelismo entre estos tenemos:

Paralelismo interconsultas: Es "el paralelismo entre las consultas", es decir,

Por lo tanto, el paralelismo intraconsultas es "paralelismo dentro de una consulta". El

Los sistemas paralelos mejoran la velocidad de procesamiento y de E/S

Costes de inicio. El inicio de un único proceso lleva asociado un coste de inicio.

Porque es recomendable usar BD Paralelas ?

Actualmente los Sistemas Paralelos se están comercializando con éxito por

 El crecimiento de la WWW y los datos recogidos por los visitantes han

 Memoria compartida. Todos los procesadores comparten una memoria

Potrebbero piacerti anche