Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Ing. Jos L. Simn Departamento de Sistemas e Informtica Escuela de Ingeniera Electrnica FCEIA
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Cuando de un sistema informtico depende la vida, la seguridad o la propiedad de las personas Incluso las instituciones sociales pueden verse afectadas por las fallas informticas, por ejemplo, los escrutinios electorales Algunos ejemplos:
Controladores de trfico areo Tecnologa mdica Control y supervisin de industrias crticas Transporte Finanzas Seguridad
1
Service Providers:
Datacenter Web hosting ASP Soporte Web Enterprise Resource Planning Customer Relationship Management Supply Chain Management Billing & provisioning e-commerce
1
Aplicaciones Corporativas:
Computacin Cientfica:
Meteorologa Fsica Experimental Clculo Numrico Gentica e-banking OLTP Font-End de mainframes Servicios Distribuidos
Industria Financiera:
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Tolerancia a Fallas
Tolerancia a Fallas es la capacidad de un sistema informtico de mantener servicio ante la presencia de fallas parciales:
Sistema:
Alta Disponibilidad
Disponibilidad es el tiempo que un sistema es capaz de proveer servicio ininterrumpido a sus usuarios. Se mide como la razn entre el tiempo durante el que se provee servicio aceptable y el tiempo total de operaciones, en porcentaje. Las aplicaciones de misin crtica requieren 99,9% o mas. Estos valores se catalogan como Alta Disponibilidad (HA, High Availability)
1
Parmetros de Disponibilidad
Downtime anual 87 horas 36' 43 horas 48' 4 horas 23' 53' 5'
1
Alta disponibilidad
Disponibilidad Continua
Representa un estado ideal, generalmente usado para sistemas de HA en los cuales no son tolerables cadas de servicio.
Fallas
Las
De parada: El sistema, recurso o aplicacin deja de responder por completo. Son las mas fciles de detectar -algo no funciona-
Bizantinas: El componente en falla no deja de funcionar pero expone comportamientos no previstos o incorrectos. Son difciles de detectar y pueden afectar a otros componentes, provocando funcionamiento defectuoso de parte o todo el sistema.
2001 Ing. Jos L. Simn 1
MTBF
Mean Time Between Failures, es una medicin estadstica de la probabilidad de falla de un componente. Se especifica en horas y da una idea del grado de confiabilidad del componente Los componentes actuales de alta calidad tienen MTBF del rango del milln de horas
Se denomina as (SPOF, Single Point Of Failure) a todo componente de un sistema informtico que, si falla, es capaz de impedir el funcionamiento de todo el conjunto. Los sistemas tolerantes a fallas (fault tolerant) evitan la existencia de SPOF's utilizando redundancia. Ejemplos: Fuentes de alimentacin, buses, cpu's, almacenamiento, etc.
SPOF: Ejemplo
Base de Datos
Downtime
Es el tiempo durante el cual un sistema no brinda servicio. Se divide en planeado y no planeado Fallas del Sistema Downtime No Planeado Falla de Datos & Desastre Error Humano Operaciones de Rutina Manteniemiento de Rutina
1
Downtime Planeado
Failover
Cuando un componente de un sistema HA falla produciendo prdida de servicio, el control de HA arranca el servicio afectado en otro componente del sistema. Implica una transferencia de servicio, conocida como Failover El tiempo que demanda esta accin es un parmetro esencial para calificar el nivel de servicio del sistema
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Caracterizacin
SMP (Symmetric Multi Processing) es un solo equipo con mltiples procesadores corriendo una copia nica del SO. La perfomance puede mejorarse agregando mas procesadores, memoria o almacenamiento.
2001 Ing. Jos L. Simn
Un cluster es la agrupacin de dos o mas equipos (nodos) funcionando como una entidad nica que provee cooperativamente aplicaciones, recursos y datos a los usuarios.
SMP: Modelo
Bus Control
CPU CPU
CPU CPU
CPU CPU
CPU CPU CPU CPU CPU CPU PCI , CompactPCI or SBus PCI , CompactPCI or SBus PCI , CompactPCI I/O
CPU
CPU
CPU CPU
CPU CPU Memory (32 GB) Memory (32 GB) CPU CPU
CPU CPU
Procesadores y memoria
System Bus
SMP: Arquitectura
Cluster
Cluster (cont.)
IP cluster
Global Network / IP
IP a
IP b
IP c
Nodo #1
Nodo #2
System
Interconnect
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Que es un Cluster?
Un Cluster es un sistema paralelo y/o distribuido, consistente en una coleccin de computadoras autnomas interconectadas, que es utilizado como un recurso computacional unificado
Clusters: Requerimientos
Disponibilidad Escalabilidad: vertical y horizontal Administrabilidad Calidad de Servicio Administracin de cargas Seguridad
1
Componentes de un Cluster
Nodos: cada uno de los equipos participantes del cluster, aportando CPU, memoria e I/O Interconnect I/O Cluster Manager
Nodos
Workstations SMP's PC's Clusters Metacomputing, Clusters de clusters Distintas arquitecturas Distintos S.O.
Sistemas Operativos
Linux (Beowulf) MS Windows NT (Illinois HPVM, MSCS) MS Windows 2000 (MS Cluster Service) Sun Solaris (Sun Cluster, Berkeley NOW) HP-UX (Illinois Panda, HP MC) IBM AIX (IBM SP Unix Cluster) IBM S/390 (IBM SysPlex) ...
1
Interconnect
Fast Ethernet (100 Mbps) Gigabit Ethernet (1 Gbps) ATM Myrinet (1.2 Mbps) FDDI
El interconnect conforma una red privada entre los nodos de baja latencia y alta disponibilidad.
1
Software de Interconexin
Capa de software que provee la comunicacin de procesos sobre el interconnect privado Socket, pipes, etc. basados en TCP/IP Protocolos Ligth Weight :
Protocolos propietarios
Cluster Middleware
SSI muestra a los recursos del cluster como una sola mquina -un solo IP, un solo hostname, etc. SA provee mecanismos de checkpointing y migracin de procesos
1
SSI provee una visin centralizada de los recursos del cluster. Maximiza el aprovechamiento de recursos mediante resource pools y administracin. Brinda mayor escalabilidad y abstraccin Un cluster puede brindar as servicios equivalentes a un computador SMP mas
costoso.
1
Beneficios de SSI
Uso transparente de recursos Balanceo de cargas y migracin de procesos transparente Mas confiabilidad y mayor disponibilidad Mayor perfomance y mejor tiempo de respuesta Simplificacin de la administracin
1
Servicios de SSI
Unico punto de entrada Unica jerarqua de filesystems Unico punto de control Virtual Networking nica Unico espacio de memoria Unica interface de usuario: CDE, MS-Windows, KDE, Gnome, Web, etc.
1
Servicios de Disponibilidad
Espacio de E/S nico: cada nodo accede a todos los perifricos independientemente de su localizacin. Espacio de Procesos nico: todos los procesos, independientemente del nodo en que se crean pueden comunicarse con el resto en forma transparente. Checkpointing: salva el estado de los procesos y los resultados intermedios a disco para soportar rollback cuando el nodo falla.
1
Global Filesystem
Checkpointing
Aplicaciones
Aplicaciones cientficas computacin-intensivas: meteorologa, qumica cuantica, biologa molecular, etc. Web servers Data mining
Clasificacin de Clusters
Basados en el foco:
Arquitecturas HPC
MIMD Multiple instruction, muliple data Shared memory Sequent, DGI, Sun
MIMD Multiple instruction, muliple data Distributed memory IBM SP, Sun, HP MC
2001 Ing. Jos L. Simn 1
Topologas: N + 1
Topologas: Par + N
Membresa
Es el conjunto de nodos que puede comunicarse con cada uno del resto de los integrantes del grupo a travs del interconnect. Est administrada por un Cluster Membership Manager distribuido que supervisa la entrada y salida de nodos al cluster. El CMM debe retirar del grupo a los nodos en falla, y reincorporarlos cuando estn operacionales nuevamente.
Fallas de particionamiento
Split Brain: el cluster se divide en dos o mas subgrupos autnomos, cada uno de los cuales cree ser el 'sobreviviente' Amnesia: cuando el cluster rearranca despus de una cada con informacin de configuracin inconsistente. Mltiples Instancias: varias copias de la misma aplicacin corriendo en el cluster
1
Split Brain
Amnesia
Es un modo de falla en el cual un nodo arranca con informacin de configuracin del cluster incoherente. Mientras que el cluster est operacional, toda la informacin acerca del estado del cluster y de sus servicios es mantenida en el CCR, que es la memoria permanente del cluster. La amnesia es un error de sincronizacin, debido a que la informacin de configuracin no fu propagada consistentemente a todos los nodos. Un ejemplo de esta situacin se da cuando un nodo falla y el cluster es reconfigurado, excluyendo al nodo en falla. La informacin de configuracin de este nodo no se actualiza mas, por lo que deviene incoherente con el resto. Si el nodo rearranca y trata de ingresar nuevamente en el cluster, debe resincronizar su informacin de configuracin antes. Una situacin peor puede darse si un nodo falla, el cluster es reconfigurado, mas tarde es sacado de servicio y posteriormente el nodo en falla es reiniciado. En este caso la informacin de configuracin contenida en este nodo se presume correcta y se construye un nuevo cluster con informacin incoherente.
2001 Ing. Jos L. Simn 1
Instancias Mltiples
Esta falla ocurre cuando una aplicacin est diseada para operar sobre datos asumiendo acceso exclusivo a los mismos, y se lanzan varias instancias de esa aplicacin. Cuando esto pasa en una computadora existen varias formas de prevenir el problema, usando semforos, lock files, mutexes, etc. En un entorno de cluster, la solucin es mas dificultosa, dado que hay que chequear en cada nodo la existencia de instancias ya en ejecucin.
Failover
Failover En Fro
Nodo 1
Nodo 2
Failover En Caliente
Nodo 1 Instancia A
Nodo 2 Instancia A
Proyectos de Investigacin
Beowulf (CalTech & NASA) Condor (Wisconsin Univ.) HPVM (High perfomance Virtual Machine, UIUC & UCSB) MPI (MPI Forum) NIMROD (Monash Univ, Australia) PVM (Paralell Virtual Machine, Oak Ridge Nat. Laboratory)
Clusters Comerciales
Sun Cluster (Sun Microsystems) HP MC (Hewlett-Packard) IBM SysPlex & HACMP Microsoft Cluster Service for Windows 2000 (Microsoft Corporation) ...
1
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1
Temario
Nuevos escenarios, nuevos requerimientos Tolerancia a Fallas vs. Alta Disponibilidad Soluciones: SMP y Clusters Clusters: Conceptos Grids Conclusin
1