Sei sulla pagina 1di 10

1 Introduccin:

El intercambio de informacin en sistemas distribuidos es algo comn y


puede llegar a ser dominantes en sistemas que crecen a grandes escalas.
Cada usuario es potencialmente creador como tambin consumidores de
informacin.
A veces el movimiento de un usuario requiere que la informacin sea
accesible de cualquier manera, en este escenario, la informacin en los
sistemas distribuidos es intercambiada para la comunidad de usuarios.
2 Antecedentes
Comenzamos examinando la abstraccin bsica realizada por los sistemas
de archivos.
2.1
Cuestiones bsicas
El almacenamiento permanente: Consiste en nombrar un conjunto de
objetos que cuando son explcitamente creados, son impones a las fallas
temporales del sistema y persisten ante las fallas. Un sistema de archivos
busca refinar esto.
En consecuencia a esto los modelos de computacin pueden ser clasificados
en 4 niveles y consecuentemente una implementacin para un sistema de
gran nivel debe ser ms sofisticada que para uno de bajo nivel.
En uno de bajo nivel (como IBM PC-DOS y Apple Macintosh), un
solo usuario realiza su performance mediante un solo proceso. Un
sistema para este nivel debe abordar 4 cuestiones claves: Nombrar la
estructura del sistema de archivos, la interfaz de programa, el mapeo
en el sistema de archivos debe ser abstracto sobre el soporte fsico y
la integridad del sistema de archivos.
El siguiente nivel (OS/2), envuelve a un usuario con mltiples
procesos en un sitio. Lo importante de la interfaz de programa es el
control de concurrencia.
El clsico modelo de tiempo compartido, donde mltiples
usuarios comparten datos y recursos, es el 3er nivel. Ahora la
seguridad es verdaderamente importante. (un ejemplo es Unix)
Sistema de archivos distribuidos, constituye el ms alto nivel,
mltiples usuarios que estn fsicamente dispersos en una red de
computadoras autnomas comparten un sistema de archivos en
comn, el desafo es lograr esta abstraccin de manera eficiente,
segura y robusta. La disponibilidad es muy importante, la replicacin
es una tcnica bsica para lograr esto pero introduce complicaciones
propias.
2.2
evolucin
Un paso importante en la evolucin de estos sistemas fue reconocer que el
acceso a archivos remotos podra verse como acceder a archivos locales
(Transparencia de red).
En la dcada del 75-85 se profundizo en los sistemas de archivos
experimentales. Sistemas como Felix, XDFS, los Alpes, Tragar y Amoeba
exploraron las transacciones atmicas y control de concurrencia en archivos
remotos. Otros sistemas como Cambrifge y CMU-SFC examinaron como la
estructura de nombres de un archivo distribuido, control de acceso ,
almacenamiento en cach y la migracin transparente de archivos. Cedar
fue el primer sistema para demostrar la viabilidad de almacenamiento en
cach de archivos completos.

Locus, en primer lugar identifica la ubicacin transparente como importante


criterio para el diseo. Y en segundo lugar, se propuso la replicacin junto
con un mecanismo para detectar inconsistencias.
Otra parte de la evolucin fue trabajar con estaciones locales sin discos de
almacenamiento propios, en estos sistemas el servidor exporta una interfaz
que emula un disco local. En estos sistemas podemos nombrar a V y RVD.
Tambin Lazowska et, presenta un anlisis del funcionamiento de estaciones
sin disco donde dice que estas operaciones pueden afectar la autonoma,
escalabilidad, disponibilidad y seguridad.
Hoy estos SD son de uso generalizado pero aun su evolucin no esta
completa.
2.3
Observaciones empricas
Ciertas investigaciones empricas dieron lugar a la orientacin del diseo de
alto nivel. Como por ejemplo: los datos sobre los tamaos de los archivos
permitieron redefinir la utilizacin de bloques de almacenamiento en disco,
los datos sobre la frecuencia de las operaciones como la lectura y escritura
han influido en el diseo de almacenamiento en cach.
Adems de la dificultad de recoger datos, hay dos preocupaciones bsicas
sobre su interpretacin. La generalidad es una de estas preocupaciones y la
segunda preocupacin se refiere a la independencia del diseo.
Los estudios sobre los SD se dividen en dos categoras:
Los primeros estudios se basaron en el anlisis esttico
Estudios posteriores se basaron en el anlisis dinmico.
Aunque estos estudios han sido realizados en los sistemas de archivo de
tiempo compartido, se asumen sus resultados a mantener en los sistemas
de archivos distribuidos. Esto se basa en que el comportamiento del usuario
y entorno de programacin son los principales factores que influyen en las
propiedades del archivo. Otro supuesto es que ninguno de estos factores
cambia en el movimiento de un entorno distribuido.
El tiempo de vida funcional promedio de los programas del sistema es
mucho mayor que la media de todos los archivos. Los archivos temporales,
por otro lado muestran tiempos de vida sustancialmente ms cortos.
3 Casos de estudio
3.1 Sun Network File System
3.1.1. Consideraciones de diseo
Sun microsystems, desde 1985 ha sido muy utilizado por la industria y la
academia. Portabilidad y heterogeneidad son dos caractersticas
importantes del diseo de NFS. Para facilitar la portabilidad, hace una
distincin entre el protocolo NFS y la implementacin especfica de un
servidor o cliente. El protocolo NFS define una interfaz RPC que permite que
el servidor acceder de manera remota a archivos locales.
Los detalles de diseo (cach, replicacin, consistencia, etc) pueden variar
en diferentes implementaciones de NFS.
Con el fin de simplificar la cada de los servidores, el protocolo NFS est
diseado para ser stateless, lo que quiere decir que los servidores no estn
obligados a mantener la informacin contextual acerca de sus clientes.
Las primeras versiones de las estaciones de trabajo Sun usaron un protocolo
de red remota en disco para soportar el funcionamiento sin disco. Este
protocolo ya no es necesario puesto que el ncleo ahora transforma todas
sus operaciones de dispositivos en operaciones de archivo.
3.1.2 Nombramiento y localizacin
Con NFS las estaciones de trabajo pueden trabajar de distintas formas, un
sitio de trabajo puede ser un servidor y exportar algunos de sus archivos

pero tambin puede ser un cliente, acceder a los archivos en otra estacin
de trabajo. Sin embargo, es prctica comn para las instalaciones que se
deben configurar de manera que un pequeo nmero de nodos ejecuta
como servidores dedicados, mientras que los otros funcionan como clientes.
Clientes NFS por lo general se configuran de manera que cada uno ve un
archivo de espacio de nombres con una raz privada, no es necesario que
todos los clientes compartan archivos. Sin embargo, los grupos de usuarios
que colaboran habitualmente configuran sus estaciones de trabajo para
tener el mismo espacio de nombres. Obteniendo as transparencia entre
usuarios.
3.1.3 Almacenamiento en cach y replicacin
Los clientes NFS realizan cach de pginas individuales de los archivos y
directorios remotos en la memoria principal. Tambin cach de los
resultados de las rutas de acceso.
Cuando un cliente almacena en cach cualquier bloque de un archivo,
tambin almacena en cach una marca de tiempo que indica cuando el
archivo de la ltima modificacin del servidor, para validar bloques en cach
de un archivo, el cliente compara la marca de tiempo en cach con la marca
de tiempo en el servidor, si la fecha y hora del servidor es ms reciente, el
cliente invalida todos los bloques en cach del archivo.
Los directorios se almacenan en cach para la lectura de una manera rpida
si se lo requiere nuevamente pero la modificacin de directorios, se realiza
directamente en el servidor.
Segn lo especificado originalmente, NFS no apoy la replicacin de datos.
Las versiones ms recientes de la replicacin de soporte NFS lo hacen a
travs de un mecanismo llamado Automounter (herramienta potente que
permiten manejar fcilmente el sistema de ficheros).
La propagacin de modificaciones a las rplicas se tiene que hacer
manualmente, por eso este mecanismo de replicacin est pensado
principalmente para los archivos que tienen frecuente lecturas y rara vez
escrituras.
3.1.4 Seguridad
NFS utiliza el mecanismo de proteccin de archivos de Unix subyacente en
los servidores de los controles de acceso. Cada solicitud RPC desde un
cliente transmite la identidad del usuario que realiza la peticin y el
servidor asume temporalmente accesos esta identidad.
En las primeras versiones de NFS, se asumi que la confianza era mutua
entre todos los equipos participantes. La identidad de un usuario era
aceptado sin ms que la validacin de un servidor. El nivel de seguridad de
un NFS sitio era de hecho la del sistema menos seguro.
Las versiones ms recientes de NFS se pueden configurar para proporcionar
un mayor nivel de seguridad. DES, basado en la autenticacin mutua, se
utiliza para validar el cliente y el servidor en cada solicitud de RPC, pero
dado que los datos an son no cifrados, NFS sigue siendo vulnerable a la
modificacin de la informacin si la red no est fsicamente segura.
La clave DES es necesaria para la autenticacin mutua y se obtiene a partir
de informacin almacenada en una legible pblicamente base de datos para
cada usuario y servidor, es un par de claves adecuadas para el cifrado de
clave pblica.
3.1.5 Gestin del sistema
Sun proporciona dos mecanismos para ayudar a los administradores del
sistema. Una de ellas es Yellow Pages (YP) que es un mecanismo para el
mantenimiento de pares clave-valor. YP proporciona acceso de slo lectura
de replicacin, con un maestro y muchos esclavos. Las bsquedas se

pueden realizar en cualquier rplica y las actualizaciones se realizan en el


maestro, que es responsable de propagar los cambios a los esclavos.
El Automounter es otro mecanismo para la simplificacin de la gestin del
sistema, permite a un cliente evaluar los puntos de montaje NFS, evitando
as la necesidad de montar todos los archivos remotos de inters cuando se
inicializa el cliente.
3.2 Sistema de archivos del dominio Apollo
3.2.1 Consideraciones de diseo
Es un entorno de estacin de trabajo distribuida que se inici a principios de
1980. El objetivo era proporcionar una base informtica utilizable y eficiente
para un equipo muy unido de personas colaboradoras (La mayor instalacin
de este se encuentra en la sede central con ms de 3500 nodos).
La tecnologa de red utilizada es de 12 Mbit Token Ring. Las instalaciones
pueden elegir para tratar alguno de sus nodos como servidores dedicados y
otros nodos como clientes para realizar clculos del usuario.
DOMAIN, proporciona soporte para la distribucin de archivos con tipo a
travs de un sistema de almacenamiento de objetos. Una instalacin
llamado el Kit de herramientas de sistemas abiertos, utiliza el mecanismo
de archivo tipificacin del OSS para crear una sistema de E/S extensible. Los
usuarios pueden escribir cdigo no kernel para interpretar las operaciones
de E/S. Sus objetivos incluyen la transparencia de ubicacin, consistencia de
los datos, un esquema de denominacin uniforme impuesto por el sistema,
y un mecanismo uniforme para el control de acceso.
3.2.2 Nombramiento y localizacin
Cada objeto en el sistema se denomina de forma nica por un identificador
de 64 bits llamado UID. Se da cada estacin de trabajo Apollo un
identificador de nodo nico en el momento de su fabricacin. El momento
en que se cre el objeto constituye otro componente. juntos estos dos
componentes garantizan la unicidad de UID.
Un servidor de nombres distribuido que mapea nombres de cadena a que
los UID se construye en la parte superior de la OSS. Este servidor
proporciona una organizacin jerrquica, la ubicacin del espacio de
nombres es transparente tipo Unix para todos los archivos y directorios en el
sistema.
3.2.3 Almacenamiento en cach y replicacin
En el sistema de dominio en cach son transparente los datos y los atributos
de los objetos en el nodo de uso. Una marca de tiempo se asocia a cada
objeto que indica la hora que fue modificado por ltima vez, cada pgina en
cache del objeto contiene esta marca de tiempo. Se utiliza para mejorar el
rendimiento de acceso secuencial.
La gestin de cach tiene en cuenta el control de concurrencia, cada nodo
ejecuta un bloqueo que sincroniza los accesos a todos los objetos que
funcionan en este nodo. Un nodo permite varios lectores distribuidos o un
solo escritor de acceso al objeto. Un objeto solo puede tener una casa en
cualquier instancia de tiempo.
3.2.4 Seguridad
La seguridad aqu se basa en la integridad fsica de las estaciones de trabajo
y la confiabilidad de ellos. La red y la comunicacin tambin debe ser
segura, El componente de red en cada nodo utiliza un campo especial en la
cabecera para indicar si se trata de un programa a nivel usuario, programa
o propio ncleo.
Se almacenan contraseas de acceso de cada usuario, el kernel local cifra la
contrasea, obtiene su entrada y se valida el usuario. Cada instancia de un

usuario conectado se asocia con un identificador nico llamado PPON


(identifica usuario, proyecto, organizacin y el nodo donde se produjo). El
registro de usuario, llamado RGY, es una rplica de la base de datos con un
maestro y mltiples esclavos que solo estn habilitados para leer. Las
polticas de proteccin se especifican mediante listas de acceso a objetos.
3.2.5 Gestin del sistema
Cada grupo puede tener un administrador de sistema distinto que es la
nica persona que puede manipulas entradas pertenecientes a su grupo. La
administracin descentralizada y la especificacin de las polticas de uso
son soportadas por este mecanismo. El registro tambin soporta
heterogeneidad.
Una herramienta interactiva, edrgv, proporciona una interfaz estructurada
para el registro. A dems detecta y notifica a los administradores efectos
secundarios potencialmente graves de diversas acciones.
3.3 Sistema de archivos Andrew
3.3.1 Consideraciones de diseo
Ha sido desarrollado en la universidad de Carnegie Mellon. Combina para el usuario una
rica interfaz con la simplicidad de compartir datos de tiempo compartido. Tanto los clientes y servidores
como corren la versin 4.3 BSD de Unix. Es una operacin relativamente pesada para configurar una
mquina como servidor en este sistema.
La escalabilidad es la consideracin ms importante, este diseo cuidadoso es necesario para
proporcionar un buen rendimiento a gran escala y facilitar la administracin de este. Esta escalabilidad
hace que se le d mucha importancia a la seguridad.
3.3.2 Nombramiento y localizacin
El espacio de nombres se divide en espacio de nombres compartido y local. El primero es la ubicacin
transparente e idntica para todas las estaciones. El segundo, es nico para cada estacin de trabajo y es
relativamente pequeo, solo contiene archivos necesarios para la inicializacin de la estacin de trabajo.
El espacio de nombre compartido se divide en subrboles y cada uno est asignado a un solo servidor,
llamado custodio. Cada servidor tiene una copia de una base de datos plenamente replicado que asigna
archivos a los custodios.

3.3.3 Almacenamiento en cach y replicacin


Un administrador de cach, llamada
Venus, se ejecuta en cada estacin de trabajo. Cuando se abre un archivo, Venus comprueba la cach de la
presencia de una copia vlida. Si existe una copia de este tipo, la solicitud de apertura es tratada como un
archivo local abierto. De lo contrario, una copia actualizada se descargar del custodio. Si un archivo
almacenado en cach est modificado, se copia de nuevo al custodio cuando el archivo es cerrado.
La consistencia de la cach se mantiene por un mecanismo denominado de devolucin de llamada.
Cuando un archivo se almacena en cach de un servidor, este ltimo se compromete a informar al cliente
si el archivo se actualiza por otra persona.
Un mecanismo de almacenamiento en cach est destinado a la replicacin de datos que se leen con
frecuencia, pero rara vez se modifican.
El control de concurrencia se proporciona por el bloqueo y desbloqueo de las operaciones en un archivo
que se realizan directamente en su custodio (el tiempo mximo para que un cliente libere un bloqueo es
de 30 minutos.

3.3.4 Seguridad
La autenticacin y mecanismos de transmisin segura es basado en el cifrado de extremo a extremo se
utilizan para proporcionar un acceso seguro a los servidores de las estaciones de trabajo. Es
responsabilidad de cada usuario mantener la integridad fsica de su estacin de trabajo y negar el acceso
remoto a la misma a travs de la red.
El dominico de proteccin se compone de grupos, en donde un usuario que pertenezca a determinado
grupo hereda los privilegios del grupo, directa o indirectamente.
Se crea una lista de acceso que se aplica a todos los archivos en el directorio, lo que les da proteccin
uniforme. Ademas de los 3 bits del propietario se utilizan bits que indican que se puede hacer con el
archivo.
Por razones razones de compatibilidad, Andrew remplazar su sistema de autenticacin original con la
autenticacin Kerberos, sistema del Proyecto Athena. Ambos utilizan un esquema de autenticacin en 2
pasos: Cuando un usuario inicia sesin su contrasea entabla un canal seguro con un servidor de

autenticacin el cual responde con un vale de autenticacin (caso kerberos) o una ficha de autenticacin
(caso de Andrew). En grandes sistemas hay varias instancias de este servidor de autenticacin pero solo
uno se le llama maestro y es quien recibe actualizaciones y los dems funcionan como esclavos solo para
ser consultados.

3.3.5 Gestin del sistema


El sistema debe ser fcil para que un pequeo equipo pueda ejecutarlo y
administrarlo. Los procedimientos operativos regulares tienen que realizarse
de manera que causen una interrupcin mnima de servicio a los usuarios.
Se tiene una estructura de datos llamado volumen, el cual es una coleccin
de archivos de la formacin de un subrbol parcial del espacio. Los tamaos
de estos volmenes son por lo general bastante pequeos como para
permitir que muchos se almacenen por particin de disco en el servidor.
Mover un volumen de un servidor a otro puede realizarse mientras este se
encuentra conectado, una rplica de solo lectura puede ser creada por
clonacin, lo que posibilita mayor disponibilidad y rendimiento.
Andrew se ha ampliado para permitir el funcionamiento descentralizado, un
grupo cooperantes que se adhieren a un conjunto estandarizado de
protocolos y convenciones de nombres pueden proporcionar conjuntamente
la imagen de un solo espacio de nombres de archivos.
3.4 Otros sistemas contemporneos
3.4.1 IBM AIX Servicios distribuidos
El componente principal de este SD es un sistema de archivos distribuidos
cuyos objetivos de diseo incluyen la emulacin estricta de la semntica de
Unix, capacidad de soportar de manera ms eficiente las bases de datos. y
la facilidad de la administracin de una amplia gama de configuraciones
para el SD.
Utiliza la memoria principal como una cach de escritura de pginas
individuales de los archivos, el comportamiento de esto depende si es de
modo slo lectura (la cach est habilitada para todos los clientes), modo
asncrono (la cach es permitida slo al escritor) o sincronizacin completa
(desactiva el almacenamiento en cach del cliente).
3.4.2 Uso compartido de archivos remotos (RFS) de AT & T
Una gran caracterstica es que una operacin en un archivo remoto es
indistinguible de la
operacin correspondiente en un archivo local.
RFS utiliza el modelo cliente-servidor. Un servidor genera un subrbol
utilizando un nombre simblico de toda la red, los clientes puede importar
explcitamente subrboles remotos utilizando nombres simblicos.
La versin inicial no utiliza ningn almacenamiento en cach. Hoy, el
almacenamiento en cach se usa solo para archivos simples, no para
directorios o dispositivos.
En RFS, clientes y servidores confan entre s, como en Unix se tiene un
mecanismo para asignar usuarios e identidades como tambin se puede
restringir los privilegios de usuarios remotos a una granularidad gruesa.
3.4.3 Sistema de archivos Sprite
Es un sistema operativo para estaciones de trabajo con monoprocesador y
multiprocesador diseada en la Universidad de California en Berkeley.
Los objetivos de este incluyen el uso eficiente de recursos principales, el
apoyo a estaciones de trabajo con varios procesadores, la comunicacin
eficaz de la red y el funcionamiento sin disco.
Aunque no existe una diferencia entre clientes y servidores, las pocas
mquinas con discos suelen estar dedicadas a ser servidores de archivos.

Cada servidor puede responder consultas de ubicacin y cada cliente


mantiene una tabla de prefijos locales, que asigna nombre de rutas a los
servidores mejorando el rendimiento mediante el uso de la informacin
almacenada en cach. Cada vez que un cliente abre o cierra un archivo para
lectura o escritura se notifica al servidor que almacena el archivo.
El almacenamiento en cach est deshabilitado cuando varios clientes
tienen un archivo abierto, y uno o ms de estos clientes tienen que abrir
para escritura. Vuelve a habilitar solo despus de que todos los clientes
cierren el archivo que estaban utilizando.
Sprite utiliza el archivo ordinario en el espacio de nombre compartido para
paginacin . este
simplifica el proceso de migracin , ya que los archivos de respaldo son
visibles en todas las otras estaciones de trabajo.
4 Mecanismos y tcnicas
4.1 Puntos de montaje
El montaje fue originalmente concebido como un mecanismo para permitir
que los sistemas de archivos independientes de medios de almacenamiento
extrables para ser agregado o quitado sin reinicializar Unix.
En un sistema de archivos distribuido , el mecanismo de montaje ofrece un
entorno natural
para colgar un subrbol remoto. Hay dos formas fundamentalmente
diferentes de utilizar el mecanismo:
El enfoque ms simple es utilizada por sistemas como NFS ,
donde cada cliente monta individualmente subrboles de servidores.
No existe una gestin centralizada de la informacin de montaje. Los
servidores son conscientes de dnde los subrboles se han
exportados. Aunque este enfoque es ms fcil de implementar , tiene
la desventaja de que la compartida espacio de nombre no se
garantiza que sea idntica en todos los clientes. Adems , el
movimiento de archivos de un servidor a otro requiere cada cliente
para desmontar y volver a montar el subrbol afectados.
El enfoque alternativo es insertar la informacin de monte, a
los datos almacenados en los servidores de archivos. El uso de este
enfoque, es trivial para asegurar que todos los clientes ven
precisamente en el mismo espacio de nombres de archivo compartido
. Adems, las tareas operativas , tales como mover archivos de un
servidor a otro, slo implica la actualizacin de la informacin de
montaje en los servidores.
4.2 Almacenamiento en cach de los clientes
El almacenamiento en cach de los datos a los clientes es , sin duda, el
elemento arquitectnico que ms contribuye al rendimiento en un Sistema
de archivos distribuido.
Hay una alta probabilidad de que los datos del archivo sern reutilizados
poco despus de su primer uso, con la obtencin de una copia local de los
datos un cliente puede evitar muchas otras interacciones con el servidor.
La validacin del contenido de la cach se puede hacer de dos maneras
fundamentalmente diferentes . Un enfoque, utilizado por la mayora
sistemas , es para que el cliente contacta con el servidor para su validacin.
El enfoque alternativo , utilizado en Andrew y DS , es
que el servidor notifica a los clientes cuando los datos en cach est a
punto de ser validados.
4.3 Sugerencias o pistas

Una pista es una pieza de informacin que puede mejorar el rendimiento si


esta es correcta. Para obtener un beneficio mximo de rendimiento una
pista debe ser casi siempre correcta.
Las sugerencias se utilizan con mayor frecuencia para obtener informacin
ubicacin del archivo en sistemas de archivos distribuidos.
4.4 Transferencia de datos en granel
Gastos generales de la comunicacin de red tpicamente representan una
parte importante de la latencia en un sistema de archivos distribuido. La
transferencia de datos a granel reduce esta sobrecarga en la fuente y
sumidero de los datos.
En la fuente , mltiples paquetes se formatean y se transmiten con un
cambio de contexto.
Algunos protocolos de transferencia a granel tambin hacen un mejor uso
de los discos en el fuente y sumidero.
El grado en que se explota la transferencia a granel vara de sistema a
sistema . Andrew , por ejemplo , es crticamente depende de ella para un
buen rendimiento.
Protocolos de transferencia a granel aumentarn en importancia a medida
que los sistemas de archivos distribuidos necesiten difundir a travs de
redes de rea geogrfica ms amplia y por lo tanto tienen una mayor
latencia inherente.
4.5 Cifrado
Es un pilar imprescindible para reforzar la seguridad en un sistema
distribuido. En el corazn de estos mecanismos es un protocolo de enlace en
que cada parte se opone a la otra para demostrar su identidad. La posesin
de una clave de codificacin secreta , conocida slo por un cliente legtimo y
el servidor, se supone que es una prueba legtima de la autenticidad.
Este esquema bsico se utiliza de dos maneras distintas en los sistemas
actuales. La diferencia radica en la forma en que las contraseas de usuario
son almacenados y utilizados en los servidores.
El esquema usado por Kerberos and Andrew: Usa un servidor
de autenticacin que es fsicamente seguro y mantiene una lista de
las contraseas de usuario en el.
El esquema de clave pblica: mantiene una base de datos
legible pblicamente de las claves de autenticacin que se cifran con
contraseas de usuario. Este esquema tiene la caracterstica que la
seguridad fsica del servidor de autenticacin es innecesaria.
Un problema no tcnico difcil es justificar el costo del hardware de
encriptacin para la gestin y los usuarios. La capacidad de memoria
adicional , la velocidad del procesador o grficos y dispositivos de
encriptacin no proporcionan beneficios tangibles a los usuarios.
5 Problemas actuales
5.1 Disponibilidad
Hay una creciente necesidad de sistemas de archivos distribuidos que sean
altamente resistentes a los fallos. La disponibilidad es el enfoque del
sistema de archivos Coda , que actualmente se construye en la Universidad
de Carnegie Mellon.
El objetivo de CODA es proporcionar el ms alto grado de disponibilidad de
cara a los posibles fracasos realistas, sin prdida significativa de la
capacidad de uso, el rendimiento o la seguridad. La estrategia es
proporcionar la ms alta disponibilidad en el mejor rendimiento.

Muchas de las caractersticas arquitectnicas principales de Coda , tales


como el uso de almacenamiento en cach con la devolucin de llamada,
transferencia de archivo entero ,
Autenticacin y cifrado basado en RPC , y la agregacin de los datos en los
volmenes se heredan de Andrew.
La alta disponibilidad es tambin una preocupacin fundamental del sistema
de archivos de Echo, tambin utiliza la replicacin , pero su estrategia
difiere sustancialmente de la de Coda, ya que en cualquier momento uno de
los servidores con una rplica de un archivo es su sitio principal. Los clientes
interactan slo con el sitio principal , que asume la responsabilidad de
propagar los cambios a los otros sitios de replicacin.
5.2 Escalabilidad
Ciertos problemas inducidos por la escala han sido expuestos por el uso
extensivo de los grandes sistemas de archivos distribuidos. Un problema es
la necesidad de la descentralizacin.
Otro aspecto de la escala es la extensin del paradigma del sistema de
archivos distribuidos en amplias reas geogrficas. Prcticamente todos hoy
en da estn diseados con redes de rea local en la mente. Es una
pregunta abierta si tales diseos se pueden ampliar a travs de redes con
latencias ms largas y mayores posibilidades de red congestin.
Un esfuerzo est actualmente en marcha para extender Andrew para operar
en una red de rea amplia . Con su nfasis en el almacenamiento en cach
y la minimizacin de las interacciones cliente-servidor , el diseo de Andrew
parece bastante apropiado
para dicha extensin.
Topologa de la red se est convirtiendo en un aspecto cada vez ms
importante de los sistemas distribuidos. Las grandes redes a menudo tienen
topologas complejas , causadas por una variedad de factores como:
consideraciones elctricas que limitan la longitud de red individual en
segmentos y la densidad de las mquinas en ellos, el mantenimiento y
aislamiento de fallos se simplifican si una red es descomponible, funciones
administrativas, como la asignacin de direcciones de host nicos pueden
descentralizarse si un red puede ser dividida.
La interaccin entre los topologa de la red y el rendimiento del sistema
distribuido an es poco conocido.
5.3 Heterogeneidad
Una variedad de factores que contribuyen al aumento de la heterogeneidad.
En primer lugar, hay un incentivo considerable para permitir a los usuarios
fuera del mbito del sistema para participar en el uso de sus recursos. En
segundo lugar, es la mejora en el rendimiento y la disminucin en el costo
de hardware con el tiempo, lo que conlleva a que pueden realizarse cambios
de distintos hardware y todo debe funcionar normalmente.
Ya existen sistemas que trabajen con este concepto, por ejemplo Sun
Microsystems que permite a las computadoras personales que funcionen
con los sistemas operativos de PC- DOS y Macintosh para compartir
archivos.
Hacer frente a la heterogeneidad es intrnsecamente difcil debido a la
presencia de mltiples entornos computacionales, cada uno con sus propias
nociones de nomenclatura de archivos y la funcionalidad.
5.4 Acceso a la base de datos
Una base de datos es un refinamiento alternativo y difiere de un sistema de
archivos de dos maneras importantes.
Uno diferencia entre el modelo de almacenamiento presentado a los
programas de aplicaciones y usuarios. Un sistema de archivos ve los datos

en un archivo como una secuencia de bytes no interpretados. En contraste ,


una base de datos encapsula la informacin sustancial sobre los tipos y
relaciones lgicas de elementos de datos almacenados en ella.
La segunda distincin fundamental es en el rea de la nomenclatura. Un
sistema de archivos proporciona acceso a un archivo por su nombre
mientras que una base de datos permite el acceso asociativo. Los
elementos de datos se puede acceder y modificado en una base de datos
basada en predicados especificados por el usuario.
La distribucin de una base de datos es particularmente difcil en gran
escala. En su forma ms general el problema parece irremediablemente
difcil. Una base de datos es conceptualmente un punto focal para la
aplicacin de control de concurrencia y las propiedades de atomicidad . Si
las estructuras de control para hacer cumplir estas propiedades estn
distribuidos fsicamente , los protocolos de red resultantes tienen que ser
sustancialmente ms complejos.
Un enfoque menos ambicioso intenta proporcionar acceso distribuido a los
datos en un solo servidor de base de datos de gran tamao, aunque los
datos en s se encuentra en un solo sitio, el acceso transparente a estos
datos es posible desde muchos sitios.
6 Conclusin
Desde los primeros das de la computacin distribuida, los sistemas de
archivos han sido la forma ms importante y ampliamente utilizada de
almacenamiento permanente compartida.
La disponibilidad, la heterogeneidad y el apoyo a las bases de datos
tambin sern temas clave. La seguridad seguir siendo un grave
preocupacin y puede, de hecho, llegar a ser la pesadilla de los grandes
sistemas distribuidos.

Potrebbero piacerti anche