Sei sulla pagina 1di 8

BASE DE DATOS DISTRIBUIDOS

INTRODUCCION:
La necesidad de almacenar datos de forma masiva dio paso a
la creacin de los sistemas de bases de datos.
La base de datos distribuidas originalmente almacenan la
informacin de manera centralizada, pero con el paso del
tiempo las necesidades aumentaron y esto produjo ciertos
inconvenientes que no era posible solucionarlos o volverlos
eficientes de la forma centralizada. Estos problemas
impulsaron la creacin de almacenamiento distribuido, los
cuales hoy en da proveen caractersticas indispensables en el
manejo de informacin; es decir, la combinacin de las redes
de comunicacin y las bases de datos.
En un sistema de base de datos distribuida, los datos se almacenan
en varios computadores. Los computadores de un sistema distribuido
se comunican entre s a travs de diversos medios de comunicacin,
tales como cables de alta velocidad o lneas telefnicas. No
comparten la memoria principal ni el reloj.
Los procesadores de un sistema distribuido pueden variar en cuanto
su tamao y funcin. Pueden incluir microcomputadores pequeos,
estaciones de trabajo y sistemas de computadores grandes de
aplicacin general. Estos procesadores reciben diferentes nombres,
tales como localidades, nodos o computadores.
Un sistema distribuido de bases de datos consiste en un conjunto de
localidades, cada uno de las cuales puede participar en la ejecucin
de transacciones que accedan a datos de una o varias localidades. La
diferencia principal entre los sistemas de base de datos centralizados
y distribuidos es que, en los primeros, los datos residen en una sola
localidad, mientras que, en los ltimos, se encuentran en varias
localidades.
PROBLEMTICA
Uno de los objetivos principales de los SBDD es minimizar la
utilizacin de la red.
1. Procesamiento de Consultas, implica que el propio proceso de
optimizacin de consultas debe ser distribuido, al igual que el
proceso de ejecucin de la consulta. El proceso de optimizacin
consistir de un paso de optimizacin global seguido de un paso
de optimizacin local en cada sitio afectado.
2. Administracin de catlogo. En un sistema distribuido el
catlogo del sistema incluir los datos usuales del catlogo y toda
la informacin de control necesaria para que el sistema
proporcione la independencia de ubicacin, fragmentacin y
replicacin necesaria. El catlogo puede ser:
Centralizado.
Completamente replicado.
Dividido.
Combinacin de los dos primeros.
Normalmente se utiliza otro esquema, manejando sinnimos para
acceder a los objetos remotos.
3. Propagacin de la Actualizacin. Se refiere ms al concepto de
replicacin que se ver ms adelante.
4. Control de la recuperacin. El control de concurrencia en los
SBDD est basado en el protocolo de confirmacin de dos fases.
Las caractersticas generales son:
El coordinador de una transaccin no debe ser siempre el mismo
nodo, por lo general es el nodo que inicia la transaccin. Cada
sitio debe ser capaz de actuar como coordinador para algunas
transacciones y como participante en otras.
El proceso de confirmacin requiere que el coordinador se
comunique con cada uno de los sitios participantes, lo cual
significa ms mensajes y ms sobrecarga.
El participante debe hacer lo que le indique el coordinador, esto
implica prdida de autonoma.

MARCO TEORICO

DEFINICION:
Una BDD (Base de Datos Distribuida) es un conjunto de Bases de
Datos relacionadas lgicamente, pero que se encuentran fsicamente
localizadas en varios sitios de la red.
El soporte completo para las BDD implica que una sola aplicacin
debe ser capaz de operar de manera transparente sobre los datos
que estn dispersos en bases de datos diferentes, administradas por
distintos DBMS, ejecutadas en mquinas diferentes, manejadas por
sistemas operativos diferentes y conectadas a una variedad de redes
de comunicacin, donde el trmino transparente significa que la
aplicacin opera desde un punto de vista lgico como sin todos los
datos fueran manejados por un solo DBMS y ejecutados en una sola
mquina.
Un SGBDD permite el manejo de la BDD y hace esta distribucin
transparente a todos los usuarios.
Cada punto de la red es una base de datos. A cada uno de los
computadores que integran el SBD se le conoce como nodo o
emplazamiento del sistema y pueden ser administrados de forma
diferente. Cada computador que maneja una BD de una BDD se le
denomina NODO. BD Local: BD a la cual el usuario est directamente
conectado. BD Remota: cualquier BD adicional accesada por este
usuario.
AMBIENTES DE BASES DE DATOS DISTRIBUIDAS
Las BDD pueden ser:
Homogneas: Todos los sitios tienen el mismo SGBD, son
conscientes de la existencia de los dems sitios y cooperan en el
procesamiento de las solicitudes. Los sitios locales mantienen un
mismo esquema y SGBD.
Heterogneas: Cada sitio puede tener un SGBD distinto as como
esquemas diferentes. Puede que algunos sitios no conozcan a otros.
Puede que solo ofrezcan facilidades limitadas para la cooperacin en
el procesamiento de transacciones.

CARACTERSTICAS:

1. Cuenta con autonoma local. Los sitios distribuidos deben ser


autnomos, es decir que todas las operaciones en un sitio dado se
controlan en ese sitio, pues cuenta con su propio SGBD.
2. Rplicas. Se realizan copias de los datos las cuales se almacenan
en los sitios que las requieren. De esta forma el usuario efecta
operaciones sobre la rplica.
3. Fragmentacin. Es deseable por razones de desempeo, los datos
pueden almacenarse en la localidad donde se utilizan con mayor
frecuencia de manera que la mayor parte de las operaciones sean
solo locales y se reduzca el trfico en la red.
4. No dependencia de un sitio central. No debe haber dependencia de
un sitio central para obtener un servicio.
5. Transparencia de localizacin de datos. No debe ser necesario que
los usuarios sepan dnde estn almacenados fsicamente los
datos, sino que el usuario debe verlo como si solo existiera un sitio
local.
6. Manejo distribuido de transacciones. Tiene dos aspectos
principales, el control de recuperacin y el control de concurrencia.
7. Independencia con respecto a la red. Se puede leer o escribir datos
localizados en diferentes nodos de la red.
8. Independencia del sistema operativo, hardware y DBMS. Para el
usuario final no importa que los datos estn almacenados en sitios
en los que no se maneje el mismo sistema operativo de su nodo
local, el mismo hardware o DBMS.
9. Dos tipos de transacciones: Locales, cuando se accede a los datos
del nico sitio donde se inici la transaccin. Globales, cuando se
accede a datos de sitios distintos al sitio donde se inici la
transaccin.

LAS DOCE REGLAS DE LAS BASES DE DATOS DISTRIBUIDAS


El principio fundamental es que para el usuario un sistema distribuido
debe ser igual que uno centralizado.

Autonoma Local: Los sitios distribuidos deben ser autnomos, es


decir que todas las operaciones en un sitio dado se controlan en ese
sitio.

No dependencia de un sitio central: No debe de haber


dependencia de un sitio central para obtener un servicio.

Operacin Continua: Nunca debera apagarse para que se pueda


realizar alguna funcin, como aadir un nuevo sitio.

Independencia con respecto a la localizacin: No debe de ser


necesario que los usuarios sepan dnde estn almacenados
fsicamente los datos, sino que ms el usuario lo debe de ver como si
solo existiera un sitio local.

Independencia con respecto a la fragmentacin: La


fragmentacin es deseable por razones de desempeo, los datos,
pueden almacenarse en la localidad donde se utilizan con mayor
frecuencia de manera que la mayor parte de las operaciones sean
slo locales y se reduzca el trfico en la red.

Independencia de rplica: Si una relacin dada (es decir, un


fragmento dado de una relacin ) se puede presentar en el nivel fsico
mediante varias copias almacenadas o rplicas, en muchos sitios
distintos.

Procesamiento Distribuido de Consultas: El objetivo es


convertir transacciones de usuario en instrucciones para
manipulacin de datos, y as reducir el trafico en la red implica que el
proceso mismo de optimizacin de consultas debe ser distribuido.

Manejo Distribuido de Transacciones: Tiene dos aspectos


principales, el control de recuperacin y el control de concurrencia,
cada uno de los cuales requiere un tratamiento ms amplio en el
ambiente distribuido.
Independencia con respecto al equipo: El SGBDD debe ser
ejecutable en diferentes plataformas hardware.

Independencia con respecto al Sistema Operativo: El sistema


debe ser ejecutable varios diferentes SO.

Independencia con respecto a la red: El sistema debe poder


ejecutarse en diferentes redes.

Todos los usuarios accesan a la BDD a travs de un esquema


global en forma transparente al usuario. Debe ser posible
ejecutar diferentes SGBDD locales que utilicen distintos modelos de
datos.

VENTAJAS:
1. El funcionamiento del sistema no depende de un solo lugar.
2. Las grandes organizaciones pueden adoptar BDD para obtener una
interconexin confiable y flexible, potenciando su rendimiento y
expansin.
3. Reduce los costos de hardware, se necesita menos recursos
(memoria, etc.) si la base de datos es ms pequea.

DESVENTAJAS:
1. La probabilidad de violaciones de seguridad es creciente.
2. El control de concurrencia y recuperacin de los datos se tornan
ms complejos.
3. La distribucin provoca un aumento en la complejidad del diseo al
igual que en la implementacin del sistema.

PROCESAMIENTO DISTRIBUIDO DE CONSULTAS

El procesamiento de consultas es de suma importancia en bases de


datos centralizadas. Sin embargo, en BDD ste adquiere una
relevancia mayor. El objetivo es convertir transacciones de usuario en
instrucciones para manipulacin de datos. No obstante, el orden en
que se realizan las transacciones afecta grandemente la velocidad de
respuesta del sistema. As, el procesamiento de consultas presenta un
problema de optimizacin en el cual se determina el orden en el cual
se hace la menor cantidad de operaciones. En BDD se tiene que
considerar el procesamiento local de una consulta junto con el costo
de transmisin de informacin al lugar en donde se solicit la
consulta.

RECUPERACIN

En los entornos distribuidos de datos podemos encontrar lo


siguientes:

Fallo de los nodos. Cuando un nodo falla, el sistema deber


continuar trabajando con los nodos que an funcionan. Si el nodo a
recuperar es una base de datos local, se debern separar los datos
entre los nodos restantes antes de volver a unir de nuevo el sistema.

Copias mltiples de fragmentos de datos. El subsistema


encargado del control de concurrencia es el responsable de mantener
la consistencia en todas las copias que se realicen y el subsistema
que realiza la recuperacin es el responsable de hacer copias
consistentes de los datos de los nodos que han fallado y que despus
se recuperarn.

Transaccin distribuida correcta. Se pueden producir fallos


durante la ejecucin de una transaccin correcta si se plantea el caso
de que al acceder a alguno de los nodos que intervienen en la
transaccin, dicho nodo falla.

Fallo de las conexiones de comunicaciones. El sistema debe ser


capaz de tratar los posibles fallos que se produzcan en las
comunicaciones entre nodos. El caso ms extremo es el que se
produce cuando se divide la red. Esto puede producir la separacin de
dos o ms particiones donde las particiones de cada nodo pueden
comunicarse entre s pero no con particiones de otros nodos.
Para implementar las soluciones a estos problemas, supondremos que
los datos se encuentran almacenados en un nico nodo sin repeticin.
De sta manera slo existir un nico catlogo y un nico DM (Data
Manager) encargados del control y acceso a las distintas partes de los
datos.

Para mantener la consistencia de los datos en el entorno distribuido


contaremos con los siguientes elementos:

Catlogo: Programa o conjunto de programas encargados de


controlar la ejecucin concurrente de las transacciones.
CM (Cache Manager). Subsistema que se encarga de mover los
datos entre las memorias voltiles y no voltiles, en respuesta a
las peticiones de los niveles ms altos del sistema de bases de
datos. Sus operaciones son Fetch(x) y Flush(x).
RM (Recovery Manager). Subsistema que asegura que la base
de datos contenga los efectos de la ejecucin de transacciones
correctas y ninguno de incorrectas. Sus operaciones son Start,
Commit, Abort, Read, Write, que utilizan a su vez los servicios
del CM.
DM (Data Manager). Unifica las llamadas a los servicios
del CM y el RM.
TM (Transaction Manager). Subsistema encargado de
determinar que nodo deber realizar cada operacin a lo largo
de una transaccin.
Las operaciones de transaccin que soporta una base de datos
son: Start, Commit y Abort. Para comenzar una nueva transaccin
se utiliza la operacin Start. Si aparece una operacin commit, el
sistema de gestin da por terminada la transaccin con normalidad
y sus efectos permanecen en la base de datos. Si, por el contrario,
aparece una operacin abort, el sistema de gestin asume que la
transaccin no termina de forma normal y todas las modificaciones
realizadas en la base de datos por la transaccin deben de ser
deshechas.

FRAGMENTACIN

El problema de fragmentacin se refiere al particionamiento de la


informacin para distribuir cada parte a los diferentes sitios de la red
Objetivos de la fragmentacin
El objetivo de la fragmentacin consiste en dividir la relacin en un
conjunto de relaciones ms pequeas tal que algunas de las
aplicaciones de usuario slo hagan uso de un fragmento.
Sobre este marco, una fragmentacin ptima es aquella que produce
un esquema de divisin que minimiza el tiempo de ejecucin de las
aplicaciones que emplean esos fragmentos.
La unidad de fragmentacin ideal no es la tabla sino una subdivisin
de sta.
Esto es debido a:
Las aplicaciones usan vistas definidas sobre varias relaciones, es
decir, se forman a partir de "trozos" de varias tablas. Si conseguimos
que cada una de las vistas est definida sobre subtablas locales (o en
su defecto lo ms "cerca" posible) a cada aplicacin, es de esperar un
incremento en el rendimiento.
Si mltiples vistas de diferentes aplicaciones estn definidas sobre
una tabla no fragmentada, se tiene:
Si la tabla no est replicada entonces se produce generacin de
trfico por accesos remotos.
Si la tabla est replicada en todos o algunos de los sitios donde
residen cada una de las aplicaciones entonces la generacin de
trfico innecesario es producida por la necesidad de la actualizacin
de las copias.

Potrebbero piacerti anche