Sei sulla pagina 1di 64

Computacin de Alta Disponibilidad

Ing. Jos L. Simn Departamento de Sistemas e Informtica Escuela de Ingeniera Electrnica FCEIA

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Que es Misin Crtica?


Cuando de un sistema informtico depende la vida, la seguridad o la propiedad de las personas Incluso las instituciones sociales pueden verse afectadas por las fallas informticas, por ejemplo, los escrutinios electorales Algunos ejemplos:

Controladores de trfico areo Tecnologa mdica Control y supervisin de industrias crticas Transporte Finanzas Seguridad
1

2001 Ing. Jos L. Simn

Campos de Aplicacin (I)

Service Providers:

Datacenter Web hosting ASP Soporte Web Enterprise Resource Planning Customer Relationship Management Supply Chain Management Billing & provisioning e-commerce
1

Aplicaciones Corporativas:

2001 Ing. Jos L. Simn

Campos de Aplicacin (II)

Computacin Cientfica:

Meteorologa Fsica Experimental Clculo Numrico Gentica e-banking OLTP Font-End de mainframes Servicios Distribuidos

Industria Financiera:

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Tolerancia a Fallas

Tolerancia a Fallas es la capacidad de un sistema informtico de mantener servicio ante la presencia de fallas parciales:

Sistema:

Hardware Software de base Manteniemiento

Aplicativos Ambiental (energa, temperatura) Operaciones Infraestructura de comunicaciones


1

2001 Ing. Jos L. Simn

Alta Disponibilidad

Disponibilidad es el tiempo que un sistema es capaz de proveer servicio ininterrumpido a sus usuarios. Se mide como la razn entre el tiempo durante el que se provee servicio aceptable y el tiempo total de operaciones, en porcentaje. Las aplicaciones de misin crtica requieren 99,9% o mas. Estos valores se catalogan como Alta Disponibilidad (HA, High Availability)
1

2001 Ing. Jos L. Simn

Parmetros de Disponibilidad

Disponibilidad 99% 99.5% 99.95% 99.99% 99.999%

Downtime anual 87 horas 36' 43 horas 48' 4 horas 23' 53' 5'
1

Alta disponibilidad

2001 Ing. Jos L. Simn

Disponibilidad Continua

Implica un servicio non stop, sin interrupciones.

Representa un estado ideal, generalmente usado para sistemas de HA en los cuales no son tolerables cadas de servicio.

Conceptualmente es diferente de la alta disponibilidad.


1

2001 Ing. Jos L. Simn

Fallas
Las

fallas pueden caracterizarse en dos tipos:

De parada: El sistema, recurso o aplicacin deja de responder por completo. Son las mas fciles de detectar -algo no funciona-

Bizantinas: El componente en falla no deja de funcionar pero expone comportamientos no previstos o incorrectos. Son difciles de detectar y pueden afectar a otros componentes, provocando funcionamiento defectuoso de parte o todo el sistema.
2001 Ing. Jos L. Simn 1

MTBF

Mean Time Between Failures, es una medicin estadstica de la probabilidad de falla de un componente. Se especifica en horas y da una idea del grado de confiabilidad del componente Los componentes actuales de alta calidad tienen MTBF del rango del milln de horas

2001 Ing. Jos L. Simn

Punto Unico de Falla

Se denomina as (SPOF, Single Point Of Failure) a todo componente de un sistema informtico que, si falla, es capaz de impedir el funcionamiento de todo el conjunto. Los sistemas tolerantes a fallas (fault tolerant) evitan la existencia de SPOF's utilizando redundancia. Ejemplos: Fuentes de alimentacin, buses, cpu's, almacenamiento, etc.

2001 Ing. Jos L. Simn

SPOF: Ejemplo

El servidor es punto nico de falla

Base de Datos

2001 Ing. Jos L. Simn

Downtime
Es el tiempo durante el cual un sistema no brinda servicio. Se divide en planeado y no planeado Fallas del Sistema Downtime No Planeado Falla de Datos & Desastre Error Humano Operaciones de Rutina Manteniemiento de Rutina
1

Downtime Planeado

2001 Ing. Jos L. Simn

Failover

Cuando un componente de un sistema HA falla produciendo prdida de servicio, el control de HA arranca el servicio afectado en otro componente del sistema. Implica una transferencia de servicio, conocida como Failover El tiempo que demanda esta accin es un parmetro esencial para calificar el nivel de servicio del sistema

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Caracterizacin

SMP (Symmetric Multi Processing) es un solo equipo con mltiples procesadores corriendo una copia nica del SO. La perfomance puede mejorarse agregando mas procesadores, memoria o almacenamiento.
2001 Ing. Jos L. Simn

Un cluster es la agrupacin de dos o mas equipos (nodos) funcionando como una entidad nica que provee cooperativamente aplicaciones, recursos y datos a los usuarios.

SMP: Modelo
Bus Control

CPU CPU

CPU CPU

CPU CPU

CPU CPU CPU CPU CPU CPU PCI , CompactPCI or SBus PCI , CompactPCI or SBus PCI , CompactPCI I/O

CPU

CPU

CPU CPU

CPU CPU Memory (32 GB) Memory (32 GB) CPU CPU

CPU CPU

Memory (32 GB) CPU CPU Memory (32 GB)

Memory (32 GB) Memoria

Procesadores y memoria

System Bus

I/O: Red, almacenamiento, etc.

2001 Ing. Jos L. Simn

SMP: Arquitectura

2001 Ing. Jos L. Simn

Procesamiento Paralelo Masivo

2001 Ing. Jos L. Simn

Cache Coherent Non-Uniform Memory Access (Sequent)

2001 Ing. Jos L. Simn

Cluster

2001 Ing. Jos L. Simn

Cluster (cont.)
IP cluster

Global Network / IP

IP a

IP b

IP c

Nodo #1

Nodo #2

System

Interconnect

Global File System Devices / FileSystems Global Devices

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Que es un Cluster?

Un Cluster es un sistema paralelo y/o distribuido, consistente en una coleccin de computadoras autnomas interconectadas, que es utilizado como un recurso computacional unificado

2001 Ing. Jos L. Simn

Clusters: Requerimientos

Disponibilidad Escalabilidad: vertical y horizontal Administrabilidad Calidad de Servicio Administracin de cargas Seguridad
1

2001 Ing. Jos L. Simn

Componentes de un Cluster

Nodos: cada uno de los equipos participantes del cluster, aportando CPU, memoria e I/O Interconnect I/O Cluster Manager

2001 Ing. Jos L. Simn

Nodos

Mltiples componentes de alta perfomance individual:


Pueden ser heterogneos, es decir:


Workstations SMP's PC's Clusters Metacomputing, Clusters de clusters Distintas arquitecturas Distintos S.O.

2001 Ing. Jos L. Simn

Sistemas Operativos

Linux (Beowulf) MS Windows NT (Illinois HPVM, MSCS) MS Windows 2000 (MS Cluster Service) Sun Solaris (Sun Cluster, Berkeley NOW) HP-UX (Illinois Panda, HP MC) IBM AIX (IBM SP Unix Cluster) IBM S/390 (IBM SysPlex) ...
1

2001 Ing. Jos L. Simn

Interconnect

Es el vnculo de alta velocidad que enlaza a los nodos. Tecnologas:


Fast Ethernet (100 Mbps) Gigabit Ethernet (1 Gbps) ATM Myrinet (1.2 Mbps) FDDI

El interconnect conforma una red privada entre los nodos de baja latencia y alta disponibilidad.
1

2001 Ing. Jos L. Simn

Software de Interconexin

Capa de software que provee la comunicacin de procesos sobre el interconnect privado Socket, pipes, etc. basados en TCP/IP Protocolos Ligth Weight :

Active Messages Fast Messages U-Net ...

Protocolos propietarios

2001 Ing. Jos L. Simn

Cluster Middleware

Reside entre el SO y las aplicaciones y provee la infraestructura de soporte para:


Single System Image System Availability

SSI muestra a los recursos del cluster como una sola mquina -un solo IP, un solo hostname, etc. SA provee mecanismos de checkpointing y migracin de procesos
1

2001 Ing. Jos L. Simn

Single System Image

SSI provee una visin centralizada de los recursos del cluster. Maximiza el aprovechamiento de recursos mediante resource pools y administracin. Brinda mayor escalabilidad y abstraccin Un cluster puede brindar as servicios equivalentes a un computador SMP mas

costoso.
1

2001 Ing. Jos L. Simn

Beneficios de SSI

Uso transparente de recursos Balanceo de cargas y migracin de procesos transparente Mas confiabilidad y mayor disponibilidad Mayor perfomance y mejor tiempo de respuesta Simplificacin de la administracin
1

2001 Ing. Jos L. Simn

Servicios de SSI

Unico punto de entrada Unica jerarqua de filesystems Unico punto de control Virtual Networking nica Unico espacio de memoria Unica interface de usuario: CDE, MS-Windows, KDE, Gnome, Web, etc.
1

2001 Ing. Jos L. Simn

Servicios de Disponibilidad

Espacio de E/S nico: cada nodo accede a todos los perifricos independientemente de su localizacin. Espacio de Procesos nico: todos los procesos, independientemente del nodo en que se crean pueden comunicarse con el resto en forma transparente. Checkpointing: salva el estado de los procesos y los resultados intermedios a disco para soportar rollback cuando el nodo falla.
1

2001 Ing. Jos L. Simn

Global Filesystem

2001 Ing. Jos L. Simn

Checkpointing

2001 Ing. Jos L. Simn

Aplicaciones

Un cluster puede ejecutar dos tipos de aplicaciones:


Secuenciales Paralelas (Cluster aware-apps)


Aplicaciones cientficas computacin-intensivas: meteorologa, qumica cuantica, biologa molecular, etc. Web servers Data mining

2001 Ing. Jos L. Simn

Clasificacin de Clusters

Basados en el foco:

Clusters de alta perfomance (HP)

Aplicaciones de alta carga de procesamiento.

Clusters de alta disponibilidad (HA)

Aplicaciones de misin crtica Basadas en heartbeat sobre el interconnect


1

2001 Ing. Jos L. Simn

Arquitecturas HPC

SISD Single instruction, single data mainframes, workstations, PCs.

SIMD Single instruction, muliple data shared memory

MIMD Multiple instruction, muliple data Shared memory Sequent, DGI, Sun

MIMD Multiple instruction, muliple data Distributed memory IBM SP, Sun, HP MC
2001 Ing. Jos L. Simn 1

Cluster dbilmente acoplados

2001 Ing. Jos L. Simn

Cluster fuertemente acoplado

2001 Ing. Jos L. Simn

Ejemplo: Sun Cluster

2001 Ing. Jos L. Simn

Topologias: clustered pairs

2001 Ing. Jos L. Simn

Topologas: N + 1

2001 Ing. Jos L. Simn

Topologas: Par + N

2001 Ing. Jos L. Simn

Shared Nothing Clusters

2001 Ing. Jos L. Simn

Shared All Clusters

2001 Ing. Jos L. Simn

Membresa

Es el conjunto de nodos que puede comunicarse con cada uno del resto de los integrantes del grupo a travs del interconnect. Est administrada por un Cluster Membership Manager distribuido que supervisa la entrada y salida de nodos al cluster. El CMM debe retirar del grupo a los nodos en falla, y reincorporarlos cuando estn operacionales nuevamente.

2001 Ing. Jos L. Simn

Fallas de particionamiento

Split Brain: el cluster se divide en dos o mas subgrupos autnomos, cada uno de los cuales cree ser el 'sobreviviente' Amnesia: cuando el cluster rearranca despus de una cada con informacin de configuracin inconsistente. Mltiples Instancias: varias copias de la misma aplicacin corriendo en el cluster
1

2001 Ing. Jos L. Simn

Split Brain

2001 Ing. Jos L. Simn 1

Split Brain (cont.)


Es una situacin que se da cuando un cluster sufre una falla que resulta en la reconfiguracin en mltiples particiones, cada una sin conocimiento de la existencia de la(s) otra(s). Conceptualmente aparecen dos (o mas) clusters que se ignoran mutuamente. Esta situacin puede dar lugar a colisiones en la utilizacin de recursos compartidos, por ejemplo, direcciones de red o almacenamiento compartido. El resultado de esta colisin puede ser catastrfico

2001 Ing. Jos L. Simn

Amnesia
Es un modo de falla en el cual un nodo arranca con informacin de configuracin del cluster incoherente. Mientras que el cluster est operacional, toda la informacin acerca del estado del cluster y de sus servicios es mantenida en el CCR, que es la memoria permanente del cluster. La amnesia es un error de sincronizacin, debido a que la informacin de configuracin no fu propagada consistentemente a todos los nodos. Un ejemplo de esta situacin se da cuando un nodo falla y el cluster es reconfigurado, excluyendo al nodo en falla. La informacin de configuracin de este nodo no se actualiza mas, por lo que deviene incoherente con el resto. Si el nodo rearranca y trata de ingresar nuevamente en el cluster, debe resincronizar su informacin de configuracin antes. Una situacin peor puede darse si un nodo falla, el cluster es reconfigurado, mas tarde es sacado de servicio y posteriormente el nodo en falla es reiniciado. En este caso la informacin de configuracin contenida en este nodo se presume correcta y se construye un nuevo cluster con informacin incoherente.
2001 Ing. Jos L. Simn 1

Instancias Mltiples
Esta falla ocurre cuando una aplicacin est diseada para operar sobre datos asumiendo acceso exclusivo a los mismos, y se lanzan varias instancias de esa aplicacin. Cuando esto pasa en una computadora existen varias formas de prevenir el problema, usando semforos, lock files, mutexes, etc. En un entorno de cluster, la solucin es mas dificultosa, dado que hay que chequear en cada nodo la existencia de instancias ya en ejecucin.

2001 Ing. Jos L. Simn

Failover

2001 Ing. Jos L. Simn

Failover En Fro

Nodo 1

Nodo 2

2001 Ing. Jos L. Simn

Failover En Caliente

Nodo 1 Instancia A

Nodo 2 Instancia A

2001 Ing. Jos L. Simn

Proyectos de Investigacin

Beowulf (CalTech & NASA) Condor (Wisconsin Univ.) HPVM (High perfomance Virtual Machine, UIUC & UCSB) MPI (MPI Forum) NIMROD (Monash Univ, Australia) PVM (Paralell Virtual Machine, Oak Ridge Nat. Laboratory)

2001 Ing. Jos L. Simn

Clusters Comerciales

Sun Cluster (Sun Microsystems) HP MC (Hewlett-Packard) IBM SysPlex & HACMP Microsoft Cluster Service for Windows 2000 (Microsoft Corporation) ...
1

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Temario

Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1

2001 Ing. Jos L. Simn

Potrebbero piacerti anche