Sei sulla pagina 1di 18

Tolerancia de

Fallos

CONCEPTOS BASICOS
Para que un sistema distribuido pueda ser tolerante a fallos, se
ocupan las siguientes caracteristicas:
Disponibilidad
Confiabilidad
Seguridad
Mantenimiento.

DISPONIBILIDAD
Es definida por la propiedad de que el sistema esta listo para ser usado, en
otras palabras se entiende que el sistema esta operando correctamente.
Un sistema con alta disponibilidad es quel que puede trabajar en cualquier
tiempo.

CONFIABILIDAD
Se refiere a la propiedad de que el sistema puede trabajar continuamente sin
fallos, en contraste a la disponibilidad, la confiabilidad se refiere en lapsos de
tiempo, en vez de momentos instantaneos.
Un sistema con alta confiabilidad, es quel que funciona por largos periodos
de tiempo sin fallo alguno.

SEGURIDAD
Se refiere a la situacion en la que un sistema falla temporalmente, no
pasa nada grave, ejemplo son algunos sistemas que controlan
plantas nucleares, si algunos de esos sitemas fallan, pueden traer
consecuencias catastroficas.

MANTENIMIENTO

Se refiere a que tan rapido puede ser reparado un


sistema.
Un sistema con alto grado de mantenimiento es aquel,
que puede evitar o reparar fallas automaticamente.

MODELOS DE FALLOS

Disfrazado de fallas por


redundancia
Si un sistema debe ser tolerante a fallos, lo mejor que puede hacer es
esconder esos errores de otros procesos. La tecnicla clave es
usando la Redundancia.
Los tipos de redundancia a usar:
Redundancia de tiempo
Redundancia de Informacion
Redundancia fisica

Redundancia de informacin

Con este tipo de redundancia, se agregan bits al paquete de informacion


para permitir recuperacion de datos en caso de que el paquete recibido
contenga errores.

Redundancia de Tiempo
Con esta redundancia, una accion se hecha y despues si es necesaria,
se repite la misma accion, este tipo de redundancia se presenta cuando
hay errores intrasitentes o intermitentes.

Redundancia de Fsica
Se le llama asi a la tecnica en la cual se hacen 2 o 3 copias del mismo mensaje
para evitar fallos en el recibimiento del mismo. Es una de las tecnicas mas
usadas para la tolerancia de fallos.

ESQUEMAS DE
MULTITRANSMISIN BSICOS
CONFIABLES
Significa que un mensaje enviado a un
grupo
de
procesos
deber
ser
entregado a cada uno de los miembros
de dicho grupo. Sin embargo, debemos
distinguir entre comunicacin confiable
en presencia de procesos defectuosos y
comunicacin confiable cuando se
supone que los procesos estn
operando correctamente.

ESCALABILIDAD EN
MULTITRANSMISION CONFIABLE
El problema principal con el esquema
de multitransmisin confiable es que
no puede soportar un gran numero de
destinatarios. Una solucin a este
problema es no hacer que los
destinatarios confirmen la recepcin de
un mensaje. En cambio, un destinatario
devuelve
un
mensaje
de
retroalimentacin solo para informar
que el remitente no envi ningn

MULTITRANSMISIN ATMICA
Significa que un mensaje enviado a un
grupo
de
procesos
deber
ser
entregado a cada uno de los miembros
de dicho grupo. Sin embargo, debemos
distinguir entre comunicacin confiable
en presencia de procesos defectuosos y
comunicacin confiable cuando se
supone que los procesos estn
operando correctamente.

RECUPERACION
La recuperacin de errores es
fundamental para la tolerancia a
fallas.
La idea integral sobre recuperacin
de errores, es reemplazar un estado
errneo con un estado libre de error.

Esencialmente, existen dos formas


de recuperacin de errores
Recuperacin hacia Atrs.
Recuperacin hacia Adelante

Recuperacin hacia Atrs.

o Lo principal es hacer que el sistema regrese


de su estado actual errneo a su estado
previamente correcto.
o Para lograrlo, ser necesario registrar el
estado del sistema (punto de control) de vez
en cuando y, cuando las cosas vayan mal,
restaurar el estado registrado

Registro de mensaje.
o En este caso despus de que se ha tomado un punto
de control, un proceso (llamado registro basado en el
remitente) registra sus mensajes antes de enviarlos.
o Consiste en hacer que el proceso receptor registre
primero un mensaje entrante antes de entregarlo a la
aplicacin que este ejecutando.
o En la practica, la combinacin de marcar puntos de
control y el registro de mensajes resulta mas eficiente
que tener que marcar muchos puntos de control

Recuperacin hacia Adelante.


o En este caso, cuando el sistema ha
encontrado a un estado errneo, se intenta
llevarlo a un nuevo estado correcto a partir
del cual se pueda continuar ejecutando.
o El problema principal, es que se debe de
saber de antemano qu errores pueden
ocurrir. Slo en ese caso es posible corregir
los errores y trasladarse a un nuevo estado.

Categoras de
Almacenamiento
Primero: memoria RAM ordinaria que se borra cuando
falla la corriente o una maquina se congela.
Segundo: almacenamiento en disco, el cual sobrevive
a fallas de la CPU, pero tambin se puede perder
cuando ocurren fallas de cabeza de disco
Almacenamiento Estable: (desempea un rol muy
importante cuando se trata de recuperacin en
sistemas distribuidos) esta diseado para sobrevivir a
cualquier cosa excepto a calamidades extremas tales
como inundaciones o terremotos.

Conclusin
En sistemas tolerantes a fallas, la recuperacin se logra
invariablemente marcando con puntos de control el estado del
sistema en forma regular.
La marcacin de puntos de control es completamente distribuida
Desafortunadamente, la toma de un punto de control es una
operacin cara.
Para mejorar el desempeo, muchos sistemas distribuidos
combinan la marcacin de puntos de control con el registro de
mensajes.
Registrando la comunicacin entre los procesos, llega a ser
posible repetir la ejecucin del sistema despus de ocurrida una
congelacin