Alta Disponibilidad

Computacin de Alta Disponibilidad
Ing. Jos L. Simn Departamento de Sistemas e Informtica Escuela de Ingeniera Electrnica FCEIA
2001 Ing. Jos L. Simn
Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Temario

1
Que es Misin Crtica?

Cuando de un sistema informtico depende la vida, la seguridad o la propiedad de las personas Incluso las instituciones sociales pueden verse afectadas por las fallas informticas, por ejemplo, los escrutinios electorales Algunos ejemplos:

Controladores de trfico areo Tecnologa mdica Control y supervisin de industrias crticas Transporte Finanzas Seguridad
1
Campos de Aplicacin (I)
Service Providers:

Datacenter Web hosting ASP Soporte Web Enterprise Resource Planning Customer Relationship Management Supply Chain Management Billing & provisioning e-commerce
1
Aplicaciones Corporativas:

Campos de Aplicacin (II)
Computacin Cientfica:

Meteorologa Fsica Experimental Clculo Numrico Gentica e-banking OLTP Font-End de mainframes Servicios Distribuidos
Industria Financiera:

Temario

1
Tolerancia a Fallas
Tolerancia a Fallas es la capacidad de un sistema informtico de mantener servicio ante la presencia de fallas parciales:
Sistema:

Hardware Software de base Manteniemiento
Aplicativos Ambiental (energa, temperatura) Operaciones Infraestructura de comunicaciones

1
Alta Disponibilidad
Disponibilidad es el tiempo que un sistema es capaz de proveer servicio ininterrumpido a sus usuarios. Se mide como la razn entre el tiempo durante el que se provee servicio aceptable y el tiempo total de operaciones, en porcentaje. Las aplicaciones de misin crtica requieren 99,9% o mas. Estos valores se catalogan como Alta Disponibilidad (HA, High Availability)
1
Parmetros de Disponibilidad
Disponibilidad 99% 99.5% 99.95% 99.99% 99.999%
Downtime anual 87 horas 36' 43 horas 48' 4 horas 23' 53' 5'
1
Alta disponibilidad
Disponibilidad Continua
Implica un servicio non stop, sin interrupciones.
Representa un estado ideal, generalmente usado para sistemas de HA en los cuales no son tolerables cadas de servicio.
Conceptualmente es diferente de la alta disponibilidad.

1
Fallas
Las
fallas pueden caracterizarse en dos tipos:
De parada: El sistema, recurso o aplicacin deja de responder por completo. Son las mas fciles de detectar -algo no funciona-
Bizantinas: El componente en falla no deja de funcionar pero expone comportamientos no previstos o incorrectos. Son difciles de detectar y pueden afectar a otros componentes, provocando funcionamiento defectuoso de parte o todo el sistema.
2001 Ing. Jos L. Simn 1
MTBF
Mean Time Between Failures, es una medicin estadstica de la probabilidad de falla de un componente. Se especifica en horas y da una idea del grado de confiabilidad del componente Los componentes actuales de alta calidad tienen MTBF del rango del milln de horas
Punto Unico de Falla
Se denomina as (SPOF, Single Point Of Failure) a todo componente de un sistema informtico que, si falla, es capaz de impedir el funcionamiento de todo el conjunto. Los sistemas tolerantes a fallas (fault tolerant) evitan la existencia de SPOF's utilizando redundancia. Ejemplos: Fuentes de alimentacin, buses, cpu's, almacenamiento, etc.
SPOF: Ejemplo
El servidor es punto nico de falla
Base de Datos
Downtime
Es el tiempo durante el cual un sistema no brinda servicio. Se divide en planeado y no planeado Fallas del Sistema Downtime No Planeado Falla de Datos & Desastre Error Humano Operaciones de Rutina Manteniemiento de Rutina
1
Downtime Planeado
Failover
Cuando un componente de un sistema HA falla produciendo prdida de servicio, el control de HA arranca el servicio afectado en otro componente del sistema. Implica una transferencia de servicio, conocida como Failover El tiempo que demanda esta accin es un parmetro esencial para calificar el nivel de servicio del sistema
Temario

1
Caracterizacin
SMP (Symmetric Multi Processing) es un solo equipo con mltiples procesadores corriendo una copia nica del SO. La perfomance puede mejorarse agregando mas procesadores, memoria o almacenamiento.
Un cluster es la agrupacin de dos o mas equipos (nodos) funcionando como una entidad nica que provee cooperativamente aplicaciones, recursos y datos a los usuarios.
SMP: Modelo
Bus Control
CPU CPU
CPU CPU
CPU CPU
CPU CPU CPU CPU CPU CPU PCI , CompactPCI or SBus PCI , CompactPCI or SBus PCI , CompactPCI I/O
CPU
CPU
CPU CPU
CPU CPU Memory (32 GB) Memory (32 GB) CPU CPU
CPU CPU
Memory (32 GB) CPU CPU Memory (32 GB)
Memory (32 GB) Memoria
Procesadores y memoria
System Bus
I/O: Red, almacenamiento, etc.
SMP: Arquitectura
Procesamiento Paralelo Masivo
Cache Coherent Non-Uniform Memory Access (Sequent)
Cluster
Cluster (cont.)
IP cluster
Global Network / IP
IP a
IP b
IP c
Nodo #1
Nodo #2
System
Interconnect
Global File System Devices / FileSystems Global Devices
Temario

1
Que es un Cluster?
Un Cluster es un sistema paralelo y/o distribuido, consistente en una coleccin de computadoras autnomas interconectadas, que es utilizado como un recurso computacional unificado
Clusters: Requerimientos
Disponibilidad Escalabilidad: vertical y horizontal Administrabilidad Calidad de Servicio Administracin de cargas Seguridad
1
Componentes de un Cluster

Nodos: cada uno de los equipos participantes del cluster, aportando CPU, memoria e I/O Interconnect I/O Cluster Manager
Nodos
Mltiples componentes de alta perfomance individual:

Pueden ser heterogneos, es decir:

Workstations SMP's PC's Clusters Metacomputing, Clusters de clusters Distintas arquitecturas Distintos S.O.
Sistemas Operativos

Linux (Beowulf) MS Windows NT (Illinois HPVM, MSCS) MS Windows 2000 (MS Cluster Service) Sun Solaris (Sun Cluster, Berkeley NOW) HP-UX (Illinois Panda, HP MC) IBM AIX (IBM SP Unix Cluster) IBM S/390 (IBM SysPlex) ...
1
Interconnect

Es el vnculo de alta velocidad que enlaza a los nodos. Tecnologas:

Fast Ethernet (100 Mbps) Gigabit Ethernet (1 Gbps) ATM Myrinet (1.2 Mbps) FDDI
El interconnect conforma una red privada entre los nodos de baja latencia y alta disponibilidad.
1
Software de Interconexin

Capa de software que provee la comunicacin de procesos sobre el interconnect privado Socket, pipes, etc. basados en TCP/IP Protocolos Ligth Weight :

Active Messages Fast Messages U-Net ...
Protocolos propietarios
Cluster Middleware
Reside entre el SO y las aplicaciones y provee la infraestructura de soporte para:

Single System Image System Availability
SSI muestra a los recursos del cluster como una sola mquina -un solo IP, un solo hostname, etc. SA provee mecanismos de checkpointing y migracin de procesos
1
Single System Image
SSI provee una visin centralizada de los recursos del cluster. Maximiza el aprovechamiento de recursos mediante resource pools y administracin. Brinda mayor escalabilidad y abstraccin Un cluster puede brindar as servicios equivalentes a un computador SMP mas
costoso.
1
Beneficios de SSI
Uso transparente de recursos Balanceo de cargas y migracin de procesos transparente Mas confiabilidad y mayor disponibilidad Mayor perfomance y mejor tiempo de respuesta Simplificacin de la administracin
1
Servicios de SSI

Unico punto de entrada Unica jerarqua de filesystems Unico punto de control Virtual Networking nica Unico espacio de memoria Unica interface de usuario: CDE, MS-Windows, KDE, Gnome, Web, etc.
1
Servicios de Disponibilidad
Espacio de E/S nico: cada nodo accede a todos los perifricos independientemente de su localizacin. Espacio de Procesos nico: todos los procesos, independientemente del nodo en que se crean pueden comunicarse con el resto en forma transparente. Checkpointing: salva el estado de los procesos y los resultados intermedios a disco para soportar rollback cuando el nodo falla.
1
Global Filesystem
Checkpointing
Aplicaciones
Un cluster puede ejecutar dos tipos de aplicaciones:

Secuenciales Paralelas (Cluster aware-apps)

Aplicaciones cientficas computacin-intensivas: meteorologa, qumica cuantica, biologa molecular, etc. Web servers Data mining
Clasificacin de Clusters
Basados en el foco:
Clusters de alta perfomance (HP)
Aplicaciones de alta carga de procesamiento.
Clusters de alta disponibilidad (HA)
Aplicaciones de misin crtica Basadas en heartbeat sobre el interconnect

1
Arquitecturas HPC
SISD Single instruction, single data mainframes, workstations, PCs.
SIMD Single instruction, muliple data shared memory
MIMD Multiple instruction, muliple data Shared memory Sequent, DGI, Sun
MIMD Multiple instruction, muliple data Distributed memory IBM SP, Sun, HP MC
Cluster dbilmente acoplados
Cluster fuertemente acoplado
Ejemplo: Sun Cluster
Topologias: clustered pairs
Topologas: N + 1
Topologas: Par + N
Shared Nothing Clusters
Shared All Clusters
Membresa
Es el conjunto de nodos que puede comunicarse con cada uno del resto de los integrantes del grupo a travs del interconnect. Est administrada por un Cluster Membership Manager distribuido que supervisa la entrada y salida de nodos al cluster. El CMM debe retirar del grupo a los nodos en falla, y reincorporarlos cuando estn operacionales nuevamente.
Fallas de particionamiento
Split Brain: el cluster se divide en dos o mas subgrupos autnomos, cada uno de los cuales cree ser el 'sobreviviente' Amnesia: cuando el cluster rearranca despus de una cada con informacin de configuracin inconsistente. Mltiples Instancias: varias copias de la misma aplicacin corriendo en el cluster
1
Split Brain
Split Brain (cont.)

Es una situacin que se da cuando un cluster sufre una falla que resulta en la reconfiguracin en mltiples particiones, cada una sin conocimiento de la existencia de la(s) otra(s). Conceptualmente aparecen dos (o mas) clusters que se ignoran mutuamente. Esta situacin puede dar lugar a colisiones en la utilizacin de recursos compartidos, por ejemplo, direcciones de red o almacenamiento compartido. El resultado de esta colisin puede ser catastrfico
Amnesia
Es un modo de falla en el cual un nodo arranca con informacin de configuracin del cluster incoherente. Mientras que el cluster est operacional, toda la informacin acerca del estado del cluster y de sus servicios es mantenida en el CCR, que es la memoria permanente del cluster. La amnesia es un error de sincronizacin, debido a que la informacin de configuracin no fu propagada consistentemente a todos los nodos. Un ejemplo de esta situacin se da cuando un nodo falla y el cluster es reconfigurado, excluyendo al nodo en falla. La informacin de configuracin de este nodo no se actualiza mas, por lo que deviene incoherente con el resto. Si el nodo rearranca y trata de ingresar nuevamente en el cluster, debe resincronizar su informacin de configuracin antes. Una situacin peor puede darse si un nodo falla, el cluster es reconfigurado, mas tarde es sacado de servicio y posteriormente el nodo en falla es reiniciado. En este caso la informacin de configuracin contenida en este nodo se presume correcta y se construye un nuevo cluster con informacin incoherente.
Instancias Mltiples
Esta falla ocurre cuando una aplicacin est diseada para operar sobre datos asumiendo acceso exclusivo a los mismos, y se lanzan varias instancias de esa aplicacin. Cuando esto pasa en una computadora existen varias formas de prevenir el problema, usando semforos, lock files, mutexes, etc. En un entorno de cluster, la solucin es mas dificultosa, dado que hay que chequear en cada nodo la existencia de instancias ya en ejecucin.
Failover
Failover En Fro
Nodo 1
Nodo 2
Failover En Caliente
Nodo 1 Instancia A
Nodo 2 Instancia A
Proyectos de Investigacin

Beowulf (CalTech & NASA) Condor (Wisconsin Univ.) HPVM (High perfomance Virtual Machine, UIUC & UCSB) MPI (MPI Forum) NIMROD (Monash Univ, Australia) PVM (Paralell Virtual Machine, Oak Ridge Nat. Laboratory)
Clusters Comerciales
Sun Cluster (Sun Microsystems) HP MC (Hewlett-Packard) IBM SysPlex & HACMP Microsoft Cluster Service for Windows 2000 (Microsoft Corporation) ...
1
Temario

1
Temario

1

Alta Disponibilidad

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Alta Disponibilidad

Caricato da

Copyright:

Formati disponibili

Computacin de Alta Disponibilidad

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Que es Misin Crtica?

2001 Ing. Jos L. Simn

Campos de Aplicacin (I)

2001 Ing. Jos L. Simn

Campos de Aplicacin (II)

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Hardware Software de base Manteniemiento

Aplicativos Ambiental (energa, temperatura) Operaciones Infraestructura de comunicaciones

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Disponibilidad 99% 99.5% 99.95% 99.99% 99.999%

2001 Ing. Jos L. Simn

Implica un servicio non stop, sin interrupciones.

Conceptualmente es diferente de la alta disponibilidad.

2001 Ing. Jos L. Simn

fallas pueden caracterizarse en dos tipos:

2001 Ing. Jos L. Simn

Punto Unico de Falla

2001 Ing. Jos L. Simn

El servidor es punto nico de falla

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Memory (32 GB) CPU CPU Memory (32 GB)

Memory (32 GB) Memoria

I/O: Red, almacenamiento, etc.

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Procesamiento Paralelo Masivo

2001 Ing. Jos L. Simn

Cache Coherent Non-Uniform Memory Access (Sequent)

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Global File System Devices / FileSystems Global Devices

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Mltiples componentes de alta perfomance individual:

Pueden ser heterogneos, es decir:

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

Es el vnculo de alta velocidad que enlaza a los nodos. Tecnologas:

2001 Ing. Jos L. Simn

Active Messages Fast Messages U-Net ...

2001 Ing. Jos L. Simn

Reside entre el SO y las aplicaciones y provee la infraestructura de soporte para:

Single System Image System Availability

2001 Ing. Jos L. Simn

Single System Image

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn

2001 Ing. Jos L. Simn