Sei sulla pagina 1di 332

Administrando VMware Site Recovery Manager 1.

1 Por Mike Laverick RTFM Education Traducido por Jos Mara Gonzlez

Por favor, contacta con errores o correcciones a:


mailto:info@josemariagonzalez.es

Administrando VMware Site Recovery Manager Copyright 2008 Mike Laverick y Jose Maria Gonzalez Todos los derechos reservados. Ninguna parte de este libro deber ser reproducida, almacenada en un sistema de recuperacin, o transmitida por cualquier medio, sea electrnico, mecnico, o de otro tipo, sin el permiso escrito de la editorial. No se asume responsabilidad con respecto a la utilizacin de la informacin aqu contenida. Aunque se han tomado todas las precauciones en la preparacin de este libro, el editor y el autor no asume ninguna responsabilidad por errores u omisiones. Tampoco se asume ninguna responsabilidad por daos y perjuicios derivados de la utilizacin de la informacin aqu contenida. Mike Laverick y Jose Maria Gonzalez ofrecen descuentos de este libro cuando se compran a granel. LULU ofrecer descuentos en los pedidos de 25 ejemplares o ms.

Tabla de contenido
Captulo 1: Introduccin ............................................................................................................................ 8 Agradecimientos.................................................................................................................................... 9 Sobre este libro ..................................................................................................................................... 9 Sobre usted - El lector ........................................................................................................................... 9 Sobre los Hipervnculos ....................................................................................................................... 10 Exencin de responsabilidad ............................................................................................................... 10 Sobre la historia de la vida - antes de VMware SRM .......................................................................... 10 Qu es VMware SRM? ......................................................................................................................... 12 Qu es la coherencia a nivel de archivo? .......................................................................................... 14 Principios de la administracin del almacenamiento y la replicacin................................................. 14 Guas de los proveedores de almacenamiento ................................................................................... 21 Captulo 2: Primeros pasos con Virtual Appliance VSA Lefthand Networks ........................................... 24 Algunas preguntas frecuentes sobre VSA Lefthand Networks............................................................ 26 Descargar e instalar el VSA .................................................................................................................. 27 Modificar la Configuracin del VSA ..................................................................................................... 28 Licenciar por direccin Virtual MAC .................................................................................................... 29 Instalar el cliente de Gestin ............................................................................................................... 32 Configurar el VSA (gestin de grupos, clusters y volmenes) ............................................................. 33 Configurar el VSA para la replicacin .................................................................................................. 40 Monitorizar la replicacin/instantneas ............................................................................................. 43 Crear las listas de volmenes y grupos de autenticacin.................................................................... 45 Configurando el software iSCSI en el ESX ............................................................................................ 49 Licenciar el VSA.................................................................................................................................... 55 Apagar el VSA ...................................................................................................................................... 56 Conclusin ........................................................................................................................................... 56 Captulo 3: Instalando VMware SRM....................................................................................................... 57 La arquitectura de VMware SRM ........................................................................................................ 58 Limitaciones del producto VMware SRM y erratas ............................................................................. 67

Licenciar VMware SRM ........................................................................................................................ 74 Configurando la conectividad de la base de datos de VMware SRM .................................................. 76 Instalacin del servidor de VMware SRM ........................................................................................... 80 Instalacin del plug-in SRM en el cliente Vi ........................................................................................ 87 No es posible conectar con el servidor de SRM .................................................................................. 90 Conclusin ........................................................................................................................................... 91 Captulo 4: Configuracin del Sitio de Proteccin ................................................................................... 93 La vinculacin de SRM del sitio de proteccin con el sitio de recuperacin....................................... 94 Configuracin de los Array Managers ............................................................................................... 100 Configuracin de los Array Managers LeftHand Networks SRA ..................................................... 105 Configurar las asignaciones de Inventario......................................................................................... 112 Creacin de grupos de proteccin .................................................................................................... 116 Fallos al proteger una mquina virtual.............................................................................................. 125 Conclusin ......................................................................................................................................... 127 Captulo 5: Configuracin del sitio de Recuperacin ............................................................................ 130 Creacin de un plan de recuperacin completo de sitio bsico ....................................................... 131 Pruebas de configuracin de almacenamiento en el sitio de recuperacin ..................................... 136 Descripcin: Primer Plan de Recuperacin de prueba ...................................................................... 145 Practica: Primer Plan de Recuperacin de prueba ............................................................................ 151 Controlando & Solucin de problemas en planes de recuperacin.................................................. 153 Escenarios de ciclos de replicacin del almacenamiento.................................................................. 160 Conclusin ......................................................................................................................................... 164 Captulo 6: Planes Personalizados de Recuperacin ............................................................................. 166 Configurar el apagado de las mquinas virtuales protegidas en el sitio protegido .......................... 168 Configurar la prioridad/orden de las mquinas virtuales en el sitio de recuperacin ...................... 173 Orden de puesta en marca paralelo y Normal/Baja.......................................................................... 174 Adicin de Mensajes.......................................................................................................................... 174 Adicin de comandos ........................................................................................................................ 177 Configure la direccin IP de configuracin de las mquinas virtuales de recuperacin ................... 179 Asignaciones personalizadas de VM.................................................................................................. 185 Gestin de cambios en el sitio de proteccin ................................................................................... 188 Gestin de cambios en el sitio de recuperacin ............................................................................... 197 Creacin de nuevas redes y nuevas mquinas virtuales en almacenamiento nuevo ....................... 200

Storage VMotion y grupos de proteccin ......................................................................................... 207 Mquinas virtuales almacenadas en mltiples Datastores VMFS..................................................... 210 Mquinas virtuales con dispositivos en bruto/ asignaciones de disco ............................................. 214 Mltiples grupos de proteccin y mltiples planes de recuperacin ............................................... 218 El botn reparacin del Array Manager ............................................................................................ 224 Conclusin ......................................................................................................................................... 225 Captulo 7: Alarmas, Exportando el Histrico y el Control de Acceso ................................................... 227 Descripcin alarmas .......................................................................................................................... 228 Exportando & Historia ....................................................................................................................... 235 Control de Acceso .............................................................................................................................. 238 Probando sus permisos ..................................................................................................................... 244 Algunas limitaciones en los permisos................................................................................................ 246 Los archivos de registro de VMware SRM ......................................................................................... 247 Conclusiones ...................................................................................................................................... 248 Captulo 8: Configuraciones Bi-direccionales ........................................................................................ 250 Configuracin del Array Manager ..................................................................................................... 254 Configurando las asignaciones de inventario .................................................................................... 258 Creacin del grupo de proteccin ..................................................................................................... 259 Crear el plan de recuperacin ........................................................................................................... 259 Conclusiones ...................................................................................................................................... 260 Captulo 9: Failover and Failback ........................................................................................................... 262 Consideraciones antes de failover y recuperacin............................................................................ 264 Failover previsto - El sitio protegido est disponible ........................................................................ 264 Failback planeado - El sitio de protegido est disponible ................................................................. 268 Limpieza del plan de recuperacin.................................................................................................... 285 Errores de limpieza ............................................................................................................................ 295 Failover imprevisto - El sitio protegido est MUERTO ...................................................................... 298 Failback planeado - El sitio protegido ha vuelto! y est funcionando .............................................. 301 Resolviendo problemas con RDM - Failover...................................................................................... 303 Resolviendo problemas RDM - Failback ............................................................................................ 311 Conclusiones ...................................................................................................................................... 313 Captulo 10: La recuperacin del sitio, sin VMware SRM ...................................................................... 315 Reconocimiento especial................................................................................................................... 316

Introduccin ...................................................................................................................................... 316 Para una recuperacin no planificada ............................................................................................... 317 Gestionar el almacenamiento ........................................................................................................... 317 VMware PowerShell Toolkit .............................................................................................................. 318 Escanear las HBAs de cada servidor ESX ........................................................................................... 320 Crear una red interna para las pruebas ............................................................................................. 321 Aadir mquinas virtuales en el Inventario ...................................................................................... 322 Arreglar los archivos VMX ................................................................................................................. 326 Conclusiones ...................................................................................................................................... 327 Fin - Conclusiones finales .................................................................................................................. 327 Index ...................................................................................................................................................... 330

Captulo 1: Introduccin

Agradecimientos
Antes de comenzar este libro quiero dar las gracias a muchas personas que me han ayudado durante la creacin de este libro. En primer lugar, quiero dar las gracias a mi compaero Carmel Edwards. Siempre me ha aguantado cuando me pongo a deliberar sobre VMware y la virtualizacin en general. Carmel es la primera en leer mis obras y es quien hizo la primera lectura de prueba del libro. En segundo lugar, quiero dar las gracias a Adam Carter, el tcnico de producto para Lefthand Networks. Adam fue de inestimable ayuda al permitirme discutir con l mis ideas, y peguntarle preguntas de novato con referencia a Lefthand Networks. Si sueno como una especie de gur de almacenamiento en este libro, le tendr que agradecer a Adam por ello. En realidad, no soy un gur en absoluto, incluso en productos de VMware. No soporto el uso de la palabra gur. En tercer lugar, quiero dar las gracias a Daniel Crider de VMware y la comunidad VMware Certified Instructor. Daniel es miembro del equipo de desarrollo de cursos en VMware, y hemos trabajado estrechamente en lo que me gustara pensar fue un mutuo acuerdo recproco en el que ambos hemos discutido ideas y experiencias en torno a SRM. Por ltimo, quisiera agradecer personalmente a Mornay Van Der Walt de VMware y al equipo de SRM en general. Mornay es Managing Architect for Enterprise & Technical Marketing. Yo conoc por primera vez a Mornay en Cannes en el ao 2008. Mornay me ayudo a conocer a Adam de Lefthand Networks. Tambin fue muy til ayudndome a resolver mis ms oscuras cuestiones tcnicas que rodean el producto SRM.

Sobre este libro


Esta es una gua completa para el uso de VMware Site Recovery Manager (SRM). La versin de ESX y vCenter utilizada es la 3.5 y 2.5 Update 1 respectivamente. Este libro no ha sido probado sobre la versin ESXi, sin embargo, debera de funcionar igualmente.

Sobre usted - El lector


Tengo una idea muy clara de la clase de persona que lee este libro. Preferentemente, usted ha trabajando con VMware Vi3 por algn tiempo. Tal vez usted ha asistido a un curso autorizado Vi3 como el "Install & Configure" o incluso el "Deploy, Secure and Analyse". Adems tal vez usted sea ya VMware Certified Professional (VCP). Bien, A dnde quiero llegar?. Este libro no es una gua de SRM para principiantes. Usted va a necesitar algunos conocimientos base, o al menos leer otras de mis guas o libros para ponerse al da. Pero ser amable con usted asumiendo que usted ya se ha olvidado de algunos de los conceptos de los cursos, tales como los metadata VMFS, UUID y VMFS Resignaturing, pues usted tiene que entender tambin la replicacin del almacenamiento. Por ltimo, si usted es un instructor certificado de VMware puede encontrar este libro muy til. Esto se debe a que este libro est basado ampliamente en VSA Lefthand Networks (Virtual SAN Appliance) ya que tambin se utiliza en los cursos oficiales de VMware. La utilizacin de VSA Lefthand Networks no debera tomarse

como una recomendacin hacia sus productos. Conoc a los chicos de Lefthand Networks en VMworld Europa 2008 en Cannes y fueron muy amables al ofrecerme dos licencias NFR (Non for Resellers) de su tecnologa de almacenamiento. Los otros proveedores de almacenamiento tambin me han ayudado a escribir este libro. Es slo que Lefthand Networks llego primero.

Sobre los Hipervnculos


Internet es un recurso fantstico como todos sabemos. Sin embargo, los hipervnculos impresos son a menudo bastante largos, difciles de escribir correctamente y cambian con frecuencia. He creado una pgina web muy simple que contiene todas las URL incluidas en este libro. Me esforzar por mantener esta pgina actualizada para haceros la vida ms fcil para todos los interesados. El URL nico que necesitas para todos los enlaces y contenidos en lnea est aqu:

http://www.josemariagonzalez.es/srm.html

Exencin de responsabilidad
Ningn libro sobre un producto informtico estara completo sin una clusula de exencin de responsabilidad. Aqu est la ma: Aunque todas las precauciones se han tomado en la preparacin de este libro, el editor y el autor no asumen ninguna responsabilidad por errores u omisiones. Tampoco se asume ninguna responsabilidad por daos y perjuicios derivados de la utilizacin de la informacin aqu contenida.

Sobre la historia de la vida - antes de VMware SRM


Para apreciar realmente el impacto de VMware SRM, quizs valga la pena hacer una pausa por un momento y pensar cmo era la vida antes de que la virtualizacin y VMware SRM fueran inventados. Antes de que la virtualizacin se hiciera popular, tener entornos DR (Disater Recovery a partir de ahora) convencionales, significaba dedicar equipos fsicos en el sitio DR en una relacin uno-a-uno. Por lo tanto, en todas las empresas con servicios crticos haba un duplicado (servidor) en el sitio remoto o DR. Por su naturaleza, este modelo es caro y difcil de mantener y gestionar. Los servidores estaban configurados en modo standby, a la espera de ser utilizados en caso de un desastre del sitio principal. Para aquellas empresas que carecan de los recursos internos, esto significaba tener que alquilar espacio de servidores en rack en un lugar comercial, y si adems esto inclua la compra de mas servidores, muy a menudo significaba que el hardware que tenan que comprar era completamente diferente al del sitio de produccin. Aunque implementar un plan de contingencias es probable que sea costoso de gestionar, la virtualizacin ayuda enormemente a reducir los costes financieros y los costes de planificacin. Primero, las mquinas virtuales son ms baratas que las mquinas fsicas. Podemos tener muchas instancias de software, por ejemplo Windows, ejecutndose en el mismo hardware o servidor, reduciendo as el espacio en rack necesario para una ubicacin DR. Ya no tiene que preocuparse de que el hardware en la ubicacin primaria sea diferente al hardware de la ubicacin DR, siempre y cuando el hardware en la ubicacin DR soporte VMware ESX. As nuestro tiempo puede ser dedicado a lograr que los

10

servicios que mantenemos se pongan en marcha y entren en funcionando en el menor tiempo posible. Una de las cosas ms comunes que he escuchado en mis cursos y conferencias a personas que son nuevas en la virtualizacin son, entre otras cosas: "Vamos a tratar de virtualizar nuestro sitio DR , antes de instalarlo en nuestro sitio primario o de produccin" Esto se utiliza a menudo como una excusa prudente por parte de las empresas que estn adoptando tecnologas de virtualizacin por primera vez. Cuando me dicen esto yo siempre les respondo - pensar en las consecuencias de lo que ests diciendo. En mi opinin, una vez que adapta el camino de la virtualizacin en su sitio DR, es casi inevitable desear virtualizar tambin sus sistemas de produccin por dos razones principales. En primer lugar, usted estar tan impresionado y convencido de las ventajas de la virtualizacin, que tambin querr virtualizar el sitio de produccin. Y en segundo lugar, y ms importante para el contexto de este libro, si su entorno de produccin no est ya virtualizado, entonces, cmo va a mantener el sito DR sincronizado con la ubicacin principal o sitio de Produccin? Hay un par de maneras de lograr este objetivo. Primero, se puede confiar nicamente en las copias de seguridad convencional y la restauracin, aunque esto no va a ser muy rpido. Segundo, y esta es una mejor alternativa, podra utilizar algn tipo de tecnologa P2V (En Ingles Physical to Virtual Conversin de Fsico a Virtual). En los ltimos aos muchos de los proveedores de estas herramientas de conversin P2V como PlateSpin y LeoStream, han re-posicionado sus productos hacia "herramientas de disponibilidad". La idea es que usted utiliza el software P2V para mantener tambin el entorno de produccin sincronizado con el sitio DR. Hoy en da, estas tecnologas funcionan, y habr algunas ventajas en la adopcin de esta estrategia, por ejemplo, hay aplicaciones/servicios que por alguna razn deben permanecer en un servidor fsico en el sitio primario. Pero en general soy escptico sobre el uso de este mtodo. Me suscribo a la opinin de que se debe utilizar las herramientas adecuadas para el trabajo adecuado. Nunca use una llave inglesa para hacer el trabajo de un martillo. Usted descubrir defectos y problemas, porque est utilizando una herramienta con un fin para el que nunca fue diseada. Para m P2V es P2V, y no se trata de una herramienta DR, aunque puede ser rediseada para hacer este tipo de tareas. Otra forma de atajar este problema ha sido la de virtualizar los sistemas de produccin antes de virtualizar los sistemas en el sitio DR. Al hacer esto usted slo tendr que usar la tecnologa de su proveedor de almacenamiento para replicar una fotografa o snapshot de los archivos de datos que componen una mquina virtual (VMX, vmdk, nvram, log, snapshot, fichero swap) al sitio o ubicacin DR. Aunque este mtodo es mucho ms limpio, esto en s mismo introduce una serie de problemas entender la tecnologa de replicacin de almacenamiento de su proveedor y asegurar que hay suficiente ancho de banda disponible entre el sitio de produccin y la ubicacin DR para que este mtodo sea viable. Adems, esto introduce una pregunta de gestin. Los chicos que manejan la capa de virtualizacin y prueban el plan de recuperacin no son los mismos chicos que gestionan la capa de almacenamiento. Por lo tanto, tiene que existir una gran colaboracin entre estos dos equipos para que interacten entre s de manera eficaz. Pero dejemos a un lado por el momento estas consideraciones importantes de almacenamiento - an habra mucho trabajo por hacer en la capa de virtualizacin

11

antes de entra en esta capa. Las mquinas virtuales replicadas tienen que ser "registradas" en un ESX del sitio de recuperacin, y asociadas a la carpeta correcta, la red y al resource pool en el lugar de destino. Deben estar contenidas dentro de algn tipo de sistema de gestin como vCenter para poder ser encendidas y, adems, para poder arrancar las mquina virtual, todos los "metadatos" almacenados en el fichero VMX de todas las maquinas virtuales podran tener que ser modificados. Una vez encendidas (en el orden correcto), es muy probable que se necesite modificar su configuracin IP. Aunque algunos de estos pasos podran automatizarse va secuencia de comandos, nos llevara mucho tiempo crear y comprobar las secuencias de comandos. Adems, como su entorno de produccin empez a evolucionar y a cambiar, las secuencias de comandos necesitan un mantenimiento y una revisin constante. Para las organizaciones que crean cientos de mquinas virtuales a la semana, esto puede convertirse rpidamente en algo inmanejable. Vale la pena decir que si su organizacin ya ha invertido mucho tiempo en este proceso de secuencias de comandos para una solucin a medida, es muy probable que SRM no cubra todas sus necesidades especficas. Esta es una especie de tpico pero es cierto. Cualquier sistema a medida creado internamente siempre va a estar ms ajustado a las necesidades de la empresa. El problema est en su mantenimiento, en las pruebas y en demostrar a los auditores que funciona con fiabilidad. Es en este contexto en el que los ingenieros de VMware comenzaron a trabajar en la primera versin de SRM, con un objetivo muy noble, crear un sistema automatizado DR accionable mediante un botn para simplificar considerablemente el proceso. Personalmente estoy convencido que de todos los instrumentos de gestin que VMware ha aadido durante los ltimos aos, VMware SRM es el ms importante. Las personas ms o menos entienden y aprecian su significacin e importancia. Por fin podemos finalmente usar el trmino "virtualizacin del sitio DR", sin que en realidad esto sea un trmino de marketing. Si desea obtener ms informacin acerca de este manual DR, VMware ha escrito un libro sobre la virtualizacin DR que se llama "Gua prctica para la Continuidad empresarial y recuperacin de desastres con VMware Infrastructure". Es gratuito y est disponible en lnea aqu: http://www.vmware.com/files/pdf/practical_guide_bcdr_vmb.pdf

Qu es VMware SRM?
Sencillamente SRM es un instrumento de automatizacin. Automatiza la prueba y la invocacin de la "recuperacin de desastres (en Ingles DR) o como ahora se prefiere llamar, la continuidad del negocio "(en Ingles BC-Business Continuity) de las mquinas virtuales. En realidad, es ms complicado de lo que para muchos es solo un procedimiento o evento DR. Cuando se produce un desastre se requieren medidas y procedimientos destinados a levantar el negocio de nuevo. Por otra parte la continuidad del negocio es ms un evento estratgico relacionado con las perspectivas a largo plazo de la empresa despus de un desastre, y debe incluir un plan sobre cmo el negocio un da podra volver al sitio de produccin o moverlo a otro lugar totalmente distinto. Alguien podra escribir un libro entero sobre este tema. De hecho hay libros que han sido escritos sobre este tema. As que no tengo la intencin de explicar que es el objetivo de tiempo de recuperacin, objetivo de punto de recuperacin o parada mxima tolerable. Eso no es realmente el tema de este libro. En pocas palabras VMware SRM no es una herramienta para DR o BC que soluciona todos los problemas, sino es una herramienta que facilita los procesos de

12

toma de decisiones previstas antes de la catstrofe. Este libro se centrara sobre cmo poner en marcha VMware SRM. Con VMware SRM, si pierde su sitio primario o "sitio protegido", el objetivo es poder ir al sitio secundario o "sitio recuperacin", y hacer clic en un botn para ver como sus mquinas virtuales se encienden en el sitio de recuperacin. Para lograr este objetivo, su proveedor de almacenamiento debe proporcionar un motor para replicar sus mquinas virtuales desde el sitio protegido al sitio se recuperacin. Su proveedor de almacenamiento tambin le proporcionar un "Adaptador Recuperacin de Sitio " (en Ingles SRA Site Recovery Adapter), el cual est instalado en su servidor SRM. Actualmente, VMware SRM est solo soportado para redes de rea local (en Ingles Storage Area Network SAN) de fibra y iSCSI. No hay soporte todava para NFS. Como la replicacin o las instantneas son un requisito absoluto para que SRM funcione, pens que era una buena idea comenzar cubriendo un par de diferentes tipos de dispositivos de almacenamiento desde la perspectiva de SRM. Esto dar a los lectores una base sobre cmo conseguir que la replicacin o las instantneas del almacenamiento funcionen, especialmente para aquellos lectores como yo que no se consideran expertos en el rea del almacenamiento. Recuerde que VMware SRM no hace la rplica o la instantnea. Este libro no constituye un sustituto para una buena formacin en estas tecnologas de replicacin, a ser posible directamente del vendedor. Si ya est familiarizado con la funcionalidad del software de replicacin e instantneas de su proveedor de almacenamiento puede decidir pasar al Captulo 3: Instalacin de VMware SRM. Tuve la suerte de conocer al personal de gerencia del producto de SRM a travs de Lefthand Networks en el VMworld Europa 2008 en Cannes. Desde el momento en que los conoc, me ofrecieron dos licencias NFR (Non For Resellers) del Virtual Appliance Lefthand Networks para redes SAN iSCSI, mayormente conocido por el nombre de VSA, con fines de prueba. Ms tarde me presentaron a los dos chicos de EMC y NetApp y me interese mucho por estas tecnologas de almacenamiento, tanto desde una perspectiva de SRM como de VDI(Virtual Desktop Infrastructure). En trminos de configuracin, voy a empezar con una configuracin muy simple una nica LUN/volumen replicndose al emplazamiento remoto. Sin embargo, ms adelante voy a cambiar la configuracin de modo que tendremos mltiples LUNs/Volmenes con los discos virtuales de las mquinas virtuales en las LUNs. Evidentemente, la gestin en la frecuencia de las replicas ser importante. Si tenemos una archivo boot.VMDK en una LUN/Volumen y ficheros de base de datos almacenados en un archivo data.VDMK en otra LUN/Volumen, los dos archivos que formar parte de la mquina virtual podra fcilmente des-sincronizarse, lo que podra corromper los datos. Si utilizamos los extents VMFS en VMware ESX , y olvidamos incluir todas las LUNs/volmenes que componen el extent, estaramos provocando que el extent se rompiera en la ubicacin remota y los archivos que componen la mquina virtual estaran daados. Entonces, la pregunta sobre cmo utilizar las LUN y donde puede guardar sus mquinas virtuales, puede llegar a ser ms complicado que este simple ejemplo de los extents. Nuestra atencin se

13

centrara en VMware SRM, no en el almacenamiento. Sin embargo, la estructura de almacenamiento y replicacin es fundamental para la implementacin de SRM.

Qu es la coherencia a nivel de archivo?


Una de las preocupaciones o preguntas que usted puede tener es, cual es el nivel de coherencia de la copia en el sitio de recuperacin?. Esta pregunta es muy fcil de responder - el mismo nivel de coherencia que si no hubiera virtualizado su sito DR. A travs de la capa de almacenamiento se podrn replicar las mquinas virtuales de un sitio a otro de manera sncrona. Esto significa que los datos almacenados en ambos sitios van a ser de una calidad muy alta. Sin embargo, lo que no se sincroniza es el estado de la memoria de sus servidores en el sitio de produccin. Lo que esto significa es que si se produce un verdadero desastre, el estado de la memoria se pierde. As, pase lo que pase, habr algn tipo de prdida de datos a menos que su proveedor de almacenamiento tenga una manera de parar las aplicaciones y servicios dentro de su mquina virtual. Este nivel de consistencia a nivel de la mquina virtual se limita normalmente a su software de copia de seguridad. As que aunque usted pueda ser capaz de poder encender las mquinas virtuales en un sitio de recuperacin, puede que an sea necesario usar herramientas de terceros para la reparacin de estos sistemas a partir del estado crash consistent". De hecho, si estas herramientas fallan, usted puede verse obligado a reparar los sistemas mediante la restauracin de una copia de seguridad. Con aplicaciones como Microsoft SQL y Exchange esto podra llevar mucho tiempo dependiendo de si los datos son inconsistentes y de la cantidad del dato. Usted debe realmente incluir este factor en la variable objetivo tiempo de recuperacin. Lo primero que hay que garantizar en su plan de DR es tener una estrategia de seguridad y de restauracin efectiva que trate con la posibilidad de corrupcin de los datos y los ataques de virus.

Principios de la administracin del almacenamiento y la replicacin


En mi prximo captulo voy a exponer en detalle un sistema de almacenamiento especial VSA Lefthand Networks. Pero antes me gustara decir muy brevemente y de una forma muy genrica cmo es la gestin del almacenamiento de otros proveedores, y la forma en que gestionan la duplicacin de los datos de una ubicacin a otra. Debido a esta necesidad, esta seccin va a ser muy general y no especifica a un proveedor, de modo que para abordar un problema particular con la capa de almacenamiento, terminare con toda una serie de enlaces de la web donde muchos de estos proveedores de almacenamiento tienen documentacin especfica relacionada con los requisitos y configuracin de VMware Site Recovery Manager. Cuando empec a escribir este libro tuve ambiciosas, yo dira incluso extravagantes esperanzas, de que sera capaz de cubrir la configuracin bsica de todas las cabinas de los proveedores de almacenamiento y de cmo conseguir comunicacin entre VMware SRM y las cabinas. Sin embargo, despus de un corto perodo de tiempo reconoc que esta ambicin era irrealista!. Espero por consiguiente ofrecer

14

este contenido a las personas de las comunidades de VMware/Almacenamiento mediante la liberacin de este material como archivos PDF, como un acompaante de este libro. Despus de todo este libro trata de VMware SRM y no de almacenamiento. Sin embargo, el almacenamiento y la duplicacin es un requisito primordial para que VMware SRM funcione, por lo que considero negligente de mi parte no esbozar al menos algunos conceptos bsicos y advertencias para aquellos lectores a los que el almacenamiento no sea algo con lo que jueguen todos los das. Advertencia nmero 1: En esencia todos los sistemas de gestin de almacenamiento son los "mismos", es slo que los proveedores de almacenamiento tratan de confundir a todos (y m en particular) con el uso de sus propios trminos especficos. Los proveedores de almacenamiento no llegaron a un acuerdo sobre los trminos a usar. Por lo tanto, para algunos vendedores un "storage group" es un "device group", mientras que otros lo llaman "volumen group". Para otros un volumen es una LUN, pero para otros proveedores de almacenamiento un volumen es una coleccin LUNs. De hecho, algunos proveedores de almacenamiento piensan que la palabra LUN es una especie de palabra "mala". En resumen, descrguese la documentacin de su proveedor de almacenamiento y sumrjase en sus trminos y su idioma. Esto evitara que se sienta confundido. Advertencia nmero 2: Todos los proveedores de almacenamiento re-venden la replicacin. De hecho, pueden muy bien soportar hasta tres o cuatro tipos diferentes de replicacin. Algunos vendedores no implementan o soportan todos los tipos de replicacin con VMware SRM. As que puede que tenga una licencia para la replicacin de tipo A, pero su proveedor slo admite replicacin de tipo B, C y D, lo cual esto puede obligarle a que actualice sus licencias, el firmware, y los sistemas de gestin para soportar el tipo B, C o D. De hecho, en algunos casos usted puede necesitar una combinacin de funcionalidades obligndole as a comprar el tipo B y C o C y D. En pocas palabras, le podra costar un buen dinero hacer el cambio al tipo de replicacin correcto. Alternativamente, usted podra encontrarse con que aunque el tipo de replicacin que tiene cuenta con el soporte necesario, este no sea el ms eficiente desde el punto de vista de E/S. Un buen ejemplo de esta situacin son los sistemas de EMC Clarrion. En los sistemas Clarrion usted puede utilizar una tecnologa de replicacin llamada MirrorView. La tecnologa MirrorView de EMC cuenta con el soporte de VMware SRM, pero inicialmente slo soportaba el modo asincrnico. A finales del ao 2008, el soporte ha cambiado y MirrorView ya soporta el modo sncrono. Aunque la replicacin sncrona es altamente recomendable, se ve frecuentemente limitada por la distancia entre el sitio protegido y el sitio de recuperacin o DR. A un nivel superior de la replicacin sncrona esta la distancia mxima de replicacin que se sita en un rango de 400-450 kilmetros. Sin embargo, en la prctica y en el mundo real, estas distancias suelen estar en un rango de 50-60 kilmetros. La distancia es relativa, y as se ha demostrado en los EE.UU. donde estas limitaciones han sido especialmente importantes en los

15

recientes huracanes, pero en mi pas que tiene el de tamao de un sello de correos, tal vez sea menos importante!. Otro ejemplo en las diferencias especficas de soporte de los proveedores de almacenamiento es el caso de HP. Las cabinas de HP (EVA) son compatibles con VMware SRM. Sin embargo, deben tener las licencias de "Business Copy y "Continuous Access" para que puedan funcionar correctamente. La licencia de Business Copy slo se utiliza cuando se crean las instantneas o snapshots durante un test de Plan de Recuperacin con VMware SRM. La licencia Continuous Access, permite la replicacin de lo HP llamada "vdisks" en un storage group. Advertencia nmero 3: Los sistemas de gestin de almacenamiento tienen decenas de contenedores que a su vez contienen decenas de otros contenedores o containers. Esto significa que el sistema puede ser administrado de una forma muy flexible. Un ejemplo tpico de esto es Microsoft con sus mltiples opciones en la estructura de Active Directory. Tenga en cuenta que a veces esto significa que la replicacin de almacenamiento se limita a un determinado tipo de contenedor o de nivel. Esto significa que usted, o su equipo de almacenamiento, tienen que sentarse y pensar muy bien cmo van agrupar sus LUNs para asegurarse de que slo replican las LUNs que sean necesarias, y que el proceso de replicacin en s, no sea la causa de la corrupcin de los datos porque los horarios de replicacin no coincidieron. Ciertamente, muchos proveedores de almacenamiento tienen requisitos muy especficos acerca de las relaciones entre los diferentes contenedores cuando se utilizan con VMware SRM. Adems, algunos proveedores de almacenamiento imponen requisitos sobre estos objetos y shapshots o instantneas. Si no cumple con estas recomendaciones, puede encontrarse en la situacin en que VMware SRM no podr incluso comunicarse con su almacenamiento correctamente. En pocas palabras, es una combinacin del tipo correcto de replicacin junto con las estructuras de gestin correctas que harn que todo funcione y slo se puede saber consultando la documentacin que viene con su proveedor de almacenamiento. En resumen - RTFM! (Read the Fun Manual) Ahora que hemos desglosado estas advertencias, me gustara trazar las estructuras de cmo la mayora de los proveedores de sistemas de almacenamiento funcionan, para esbozar despus algunas consideraciones sobre la planificacin de almacenamiento. A continuacin, se muestra un diagrama de una cabina de almacenamiento la cual contiene muchas unidades.

16

En este caso: A. Es la cabina que usted est utilizando, si se trata de canal de fibra o i t iSCSI no es importante en este caso. B. Muestra que incluso antes de permitir el acceso a disco, muchos prov s veedores de almacenamiento permitir ag grupar los discos. Por ejemplo NetApp se ref fiere a esta agrupacin como un disco co onjunto o disk aggregate, y es aqu muy a menudo donde tenemos la primera op portunidad de establecer un nivel de RAID p defecto. por mencionado por algunos vendedores como grupo de C. Es otro grupo esto es m almacenamiento (storage gro oup), grupo de dispositivo (device group) o grupos de volmenes (volumen group). D. Dentro de estos grupos te enemos los bloques de almacenamiento, y la mayora a de los vendedores llaman a estos grupos LUNs. Algunos proveedores se paran en e este punto, y la replicacin e habilitada para el Grupo C como se indica mediante es la flecha E. En este caso cada LUN dentro de este grupo se replica a la c a cabina remota y si esto no estuviera bien planificado nos podemos encontrar LU a UNs replicadas en la sitio de recuperacin que no eran necesarias replicarlas. . F. Algunos proveedores de almacenamiento permiten otros subgrupos. E Estos se denominan a veces grupos de recuperacin (recovery groups), grupos protegidos de pos (protected groups), grupos d contingencia (contingency groups) o grup de

17

coherencia (consistency grou ups). En este caso slo las LUNs que figuran en el Grupo E se replican a la otra cabina remota. Las LUNs no incluidas en el subgrupo E grupo E una no se replican. Para entenderlo mejor, el grupo C es la regla, siendo el g excepcin a esa regla. G. El ltimo grupo es G. Este es un grupo de servidores ESX, que permit e ten el acceso tanto al Grupo C o Gr rupo E, dependiendo de lo que cabina de almacenamiento soporte. Est servidores ESX se aadirn al Grupo G, va canal tos de fibra WWN (World Wide N Name) o iSCSI IQN(iSCSI qualified Name). L Los proveedores que desarrollan su adaptador para VMware SRM - Site Reco overy e Adapter (VRA) es el software que permite a VMware SRM comunicar con la capa de almacenamiento -, a menudo tienen sus propias normas y reglamentos sobre la o creacin de estas agrupacion nes. Por ejemplo, pueden estipular que ningn disco del grupo E puede ser miembro del grupo C. Esto puede resultar en un fallo del VRA al no presentar todas las LUNs que los servidores ESX necesitan. Esta estructura de agrupaci puede tener importantes consecuencias. U buen n Un ejemplo de esto es cuando se colocan las mquinas virtuales en mltiple LUN. Esto es es una recomendacin de VM Mware, generalmente por razones de rendim miento, ya que esto permite adoptar dif ferentes niveles de RAID en diferentes discos. Si esto no est bien planificado, pod dra causar la corrupcin de las mquinas vir rtuales.

En el ejemplo anterior, los do discos virtuales que componen la mquin virtual os na (SCSI 0:0 y SCSI 0:1) se han dividido en dos LUNs y en dos grupos dife erentes. El ciclo de replicacin de un gru upo tiene una latencia de 15 minutos, mient tras que el otro no tiene ninguna latenci en absoluto. En este caso, podramos llegar a la ia corrupcin de archivos de reg gistro, date stamps, y creacin de archivo pues el os, disco del sistema operativo d las mquinas virtual no se recupero en el mismo de estado que el disco de los da atos.

18

Podemos ver otro ejemplo de esto si usted elige utilizar VMFS extents. Como sabe e . ESX tiene la posibilidad de a adir espacio a un volumen VMFS que este f falto de capacidad o porque quiera ro omper la limitacin de 2TB del tamao mximo de un nico volumen VMFS. Esto se logra expandiendo (extents) un volumen VMFS a e travs de mltiples bloques d almacenamiento o LUNs. de

En este caso el problema est siendo causado por almacenar la mquina virtual en t a dos LUNs separadas en dos g grupos separados. Lo peor es que el cliente Vi pensara que la mquina virtual esta a almacenada en un solo VMFS DataStore. A m menos que uno no mire muy de cerca co el cliente Vi en la seccin de almacenamie on ento, puede ser que usted no note que el archivo de las mquinas virtuales es e sta abarcando dos LUNs en dos g grupos diferentes. Esto no slo causa un pro oblema con la mquina virtual, sino lo qu es ms importante, pude comprometer la integridad ue a del extent VMFS. Dicho est los extent VMFS son generalmente ma vistos por to, al la comunidad de VMware en general, aunque en ocasiones se utilizan co omo una cura temporal para solucionar un problema a corto plazo. Mi nico mensaje es que pro oceda con cautela, de lo contrario podran pr roducirse situaciones catastrficas. La infraestructura virtual de VMware no es muy consciente de la estructura subyacente, por eso esta falta de concienc a cia significa que usted podra crear un extent que incluya una LUN que no se est r replicando. El resultado sera un volumen VMFS daado en el sitio de destino. Tambin habr ocasiones en las que usted se sienta arrastrado hacia d dos direcciones diferentes. Para u una mxima flexibilidad, un grupo con una s sola LUN le permita controlar los ciclos d replicacin de una forma ms clara. En pr de rimer lugar, si usted tiene la intencin de aprovechar esta estrategia tenga cuidado d no e de expandir los archivos de m quina virtual a travs de mltiples LUNs y VMFS extents porque los diferente ciclos de replicacin pueden causar la corrupcin. es Tenga en cuenta que la mayo ora de la gente que utiliza la infraestructura Vi3, a

19

pueden tener poco conocimiento sobre la estructura de la replicacin que est por debajo. En segundo lugar, si usted decide poner muchas LUNs contenidas en un solo grupo, tenga encuentra que esto ofrece menos flexibilidad. Si no se tiene cuidado, podra incluir LUNs que no son necesarias replicar o limitar la capacidad necesaria de la frecuencia de las replicas. Estas cuestiones sobre la gestin del almacenamiento van a ser complicadas de resolver, porque no se ajustan a una estrategia general. Pero me gustara imaginar que algunas organizaciones tendrn tres grupos, los cuales estarn diseados con la replicacin en mete. Uno se podra utilizar para la replicacin sncrona, y los otros dos puede tener intervalos de replicacin de 30 y 60 minutos respectivamente. Depende mucho de cul sea su "objetivo de punto de recuperacin" (en Ingles, Recovery Point Objectives - RPO). Esta configuracin creara mquinas virtuales en los volmenes VMFS correctos, los cuales se est replicando con una frecuencia adecuada a sus necesidades de recuperacin, aunque pienso que implantar esta estrategia sera difcil. Cmo sabr nuestro administrador de mquinas virtuales cual es la configuracin correcta de los volmenes VMFS para crear las mquinas virtuales? Un mtodo mucho mejor sera crear grupos de almacenamiento con el software de gestin de la cabina y mapear estos a las mquinas virtuales dependiendo de su funcionalidad. Los nombres de los volmenes VMFS reflejaran sus diferentes objetivos. Adems, en VMware SRM podemos crear lo que se llama "grupos de proteccin". Estos grupos de proteccin podran mapear directamente los volmenes VMFS y los grupos de almacenamiento de la cabina. El diagrama de abajo ilustra este enfoque que propongo.

20

En este caso tendra dos "gru upos de proteccin" en VMware Site Recovery Manager, uno para el arranque y datos de Exchange, y otro para el arranque y dat de SQL. s tos Asimismo, esto permitira tre tipos de planes de recuperacin con SRM - un plan es de recuperacin en caso de f fallos slo Exchange, un plan de recuperaci en caso n de fallos slo para SQL y un plan de recuperacin en caso de fallos para todas las mquinas virtuales. Ahora que he expuesto los principios en la administracin del almacenam miento me gustara darle la direccin de algunos archivos PDF de gran importancia sobre el e almacenamiento de varios pr roveedores, los cuales exponen en ms deta alle de lo que puedo yo en este libro, la replicacin de almacenamiento y gestin d las de necesidades de sus tecnologas. Algunas de estas guas estn incluidas e el Site en Recovery Adapter cuando lo descargue desde el sitio Web de VMware. o

Guas de los prove eedores de almacenamiento


LeftHand Networks SRA for VMw ware Site Recovery Manager http://resources.lefthandnetwor rks.com/forms/VMware-LeftHand-SRA-Download d terprise HP disaster tolerant solutions using Continuous Access for HP StorageWorks Ent Virtual Array in a VMware Infrastructure 3 environment ] [Document ID: 4AA1-0820ENW] http://h71028.www7.hp.com/ER RC/downloads/4AA1-0820ENW.pdf VMware Site Recovery Manager in a NetApp Environment

21

[Document ID: TR-3671] http://media.netapp.com/documents/tr-3671.pdf Disaster Recovery Using Dell Equallogic Ps Series Storage And VMware Site Recovery Manager [Document ID: TR1039] http://www.equallogic.com/uploadedFiles/Resources/Tech_Reports/TR1039-Dell-EqualLogicPS-Series-SAN-and-VMware-SRM.pdf Improving VMware Disaster Recovery with EMC RecoverPoint [Document ID: H5582] http://powerlink.emc.com/km/live1/en_US/Offering_Technical/Technical_Documentation/H5 582-VMware_Site_Recovery_Manager_with_EMC_RecoverPoint_Implementation_Guide.pdf Using EMC SRDF Adapter VMware Site Recovery Manager [Document ID: H5511] http://powerlink.emc.com/km/live1/en_US/Offering_Technical/White_Paper/H5511-usingemc-srdf-adapter-vmware-site-rcvry-mgr-wp.pdf VMware Site Recovery Manager with EMC Celerra NS Series and Celerra Replicator Implementation Guide [Document ID: H5581] http://powerlink.emc.com/km/live1/en_US/Offering_Technical/Technical_Documentation/H5 581VMware_Site_Recovery_Manager_with_EMC_Celerra_NS_Series_and_Celerra_Replicator_Im plementation_Guide.pdf VMware Site Recovery Manager with EMC CLARiiON CX3 and MirrorView Implementation Guide [Document ID: H5583] http://powerlink.emc.com/km/live1/en_US/Offering_Technical/Technical_Documentation/H5 583VMware_Site_Recovery_Manager_with_EMC_CLARiiON_CX3_and_MirrorViewS_Implementati on_Guide.pdf

22

23

Captulo 2: Primeros pasos con Virtual Appliance VSA Lefthand Networks

24

Lefthand Networks es una empresa que proporcionan dispositivos de almacenamiento tanto fsicos como virtuales basados en IP y en el mercado SAN iSCSI. En particular, tienen un dispositivo virtual denominado VSA (Virtual SAN Appliance), que se puede descargar desde su sitio web para evaluarlo por un perodo de 30 das. En este sentido, es ideal para tipos como yo a los que les gustar jugar con esta tecnologa y VMware SRM. Si sigue este libro punto por punto, debera terminar con una estructura igual a la que adjunto, con los nombres adaptados a su propia normativa.

Esta pantalla muestra la consola de administracin de Lefhand Networks, en la cual se puede ver que tengo dos VSAs (vsa1 y vsa2), cada uno en su propio grupo de gestin (ProtectedManagementGroup y RecoveryManagementGroup). Como puede ver, tengo un volumen llamado "virtualmachines" que esta replicando los datos de vsa1 al volumen llamado "replica_of_virtualmachines" en vsa2. Es una configuracin muy simple, pero es suficiente para comenzar con el producto SRM.

25

Algunas preguntas frecuentes sobre VSA Lefthand Networks


1. Cul es la memoria y CPU mnima recomendable?
1GB de RAM, 1 vCPU con acceso a 2GHz de CPU o ms. La suma de nuevas vCPUs no mejorar significativamente el rendimiento volumen VMFS compartido? Depende totalmente de la calidad de la cabina de almacenamiento. Si su almacenamiento local es ms rpido y ofrece ms redundancia que cualquier otro almacenamiento remoto, entonces debera utilizar el almacenamiento local. En algunos entornos es posible que prefiera utilizar almacenamiento compartido para facilitar la copia de seguridad, el despliegue, y para permitir alta disponibilidad con VMware HA MAC fija? Si usted decide comprar el VSA, se recomienda el uso de una direccin MAC fija. Si solo lo est evaluando, la direccin MAC fija no es requerida, aunque si es recomendada.

2. El VSA debe ser almacenado en un volumen local VMFS o en un

3. VSA se licencia por la direccin MAC. Debera usar una direccin

4. Se puede usar la funcionalidad de cloning en vCenter para crear

mltiples VSAs? S. Sin embargo, el VSA no debe ser configurado en un grupo de gestin. Si ha adquirido una versin de VSA con licencia, tenga en cuenta que al generar un clone con vCenter se genera una nueva direccin MAC para la mquina virtual, y como tal tendr que licenciar de nuevo este clone de VSA.

5. La creacin de dos VSAs en un grupo de gestin con todos los

ajustes adecuados lleva algn tiempo. Se puede utilizar la caracterstica de clon en vCenter para restaurar los entornos de laboratorio? S. Configure los dos VSAs al nivel deseado. Despus simplemente haga clic con el botn derecho sobre el grupo de gestin y elija la opcin de apagado del grupo de gestin. Despus, podr clonar, borrar y volver a clonar. No obstante debe tener cuidado en el proceso de clonacin ya que este cambia la direccin MAC, al igual que el proceso de clonacin mediante plantilla. Una alternativa puede ser aprender el CLI (Command Line Interface) de Lefthand Networks el cual le permite crear una secuencia de comandos con el procedimiento. Esto no ser cubierto en este libro. Se puede capturar la configuracin de VSA y restaurarla? S y no. Usted puede capturar la configuracin con el propsito de recibir soporte, pero no con el propsito de guardar la configuracin. Es muy posible que las futuras versiones de este Appliance tenga esta opcin y se pueda capturar la configuracin en un archivo XML para que se permita su recarga. Esto pondra fin a la necesidad de clonar o crear un script para el proceso de configuracin de alto nivel que se produce en la Consola de Administracin.

6.

26

Descargar e instalar el VSA


El VSA est disponible para la descargar en formato OVF "Open Virtual Machine Format" en la pgina de VMware Virtual Appliance. Tambin puede descargar la versin "ESX" del VSA Lefthand Network desde su sitio web en un archivo zip o en formato OVF. Ver que hay una versin ESX y una versin que se puede ejecutar en un ordenador porttil con VMware Workstation o Server. Yo estoy usando la versin de ESX en este libro.

http://www.lefthandnetworks.com/vsa_eval.aspx
Tambin hay un blog, un foro y una gua PDF disponible en el sitio. La forma de subir el VSA a tu servidor ESX depende mucho de la versin de ESX que usted est utilizando. Si est utilizando ESX 3.5.0 y el servicio de consola, es muy probable que sea ms fcil y ms rpido subir el archivo ZIP sin extraerlo, y despus descomprimirlo en el servicio de consola con el comando tar. Si, por otra parte, usted est utilizando la versin ESX3i, quizs le resulte ms sencillo extraer el fichero en Windows primero para despus subir los archivos al servidor ESX usando la utilidad de navegador de DataStore, o la funcin de importacin, si usted ha decidido bajarse el Appliance en formato OVF.

Una vez extrado el archivo adecuadamente, este puede ser aadido al inventario del vCenter simplemente haciendo clic con el botn derecho del ratn sobre el archivo VMX del VSA:

27

Modificar la Configuracin del VSA


Modifique la configuracin de red de las mquinas virtuales Por defecto, el VSA ser conectado a la red "VM Network". Esta es el port group creado por defecto en una instalacin de ESX. Sin embargo, si usted quiere administrar el VSA, este debe ser conectado a una red accesible por el servidor ESX con LUNs iSCSI presentadas por el VSA.

Aada el tercer disco virtual 1. Pulse next para aadir un tercer y ltimo disco. Este disco ser presentado a su servidor ESX y se utilizara para almacenar las mquinas virtuales protegidas por SRM. Como tal, tendr que hacerlo tan grande como sea posible ya que crearemos mquinas virtuales en este disco. Adems este debe ser configurado en SCSI 1:0

28

Nota: Ms tarde, cuando creamos los volmenes en el VSA, usare "thin provisioning" para presentar este disco a una LUN de 1TB. En la actualidad el VSA slo puede contener tres discos virtuales. Las futuras versiones del VSA permitirn agregar ms discos virtuales.

Licenciar por direccin Virtual MAC


Antes de encender por primera vez el VSA, es posible que desee considerar la forma en que el producto se licencia en caso de que desee utilizar VSA ms all de los 30 das del perodo de evaluacin. VSA est licenciado por la direccin virtual MAC de la mquina virtual cuando VMware enciende la maquina virtual. Este proceso de arrancado genera automticamente la direccin MAC y por lo tanto no debe cambiar, aunque esta MAC podra cambiar en algunos casos en los que tengamos que registrar manualmente una mquina virtual de un servidor ESX a otro. Adems, si no hace una copia de seguridad del fichero VMX, podra perder esta configuracin para siempre. Por ltimo, si por la razn que sea, usted decido hacer un clon del VSA con vCenter y la funcionalidad de clonar plantillas, se generara una nueva direccin MAC. Para estar 100% seguros de que la direccin MAC no cambiara, podra establecer y registrar una direccin MAC para su VSA. Si lo desea, puede configurar esta direccin MAC dentro del rango previsto por VMware. Con VMware 3.5, ya es posible establecer una direccin MAC desde la GUI de vCenter por lo que ya no es necesario editar el archivo VMX directamente.

29

Independientemente de que usted elija una direccin MAC esttica o dinmica, asegrese de apuntar esta direccin MAC en caso de tener que reconstruir el VSA completamente desde cero. Lefthand Networks recomienda una direccin MAC esttica.

Configuracin primaria del servidor VSA


Antes de encender el VSA y llevar a cabo la configuracin, es posible que desee considerar la opcin de crear un segundo VSA. Para crear rpidamente un segundo VSA, puede hacer otro del primero usando vCenter. Es posible hacer el clon incluso si la mquina virtual se encuentra en un almacenamiento local como en el caso de mi VSA1. La configuracin inicial consiste en establecer la configuracin IP y el nombre del host VSA desde el VMware Remote Console. Usted puede navegar por esta utilidad mediante una combinacin de teclas, con las teclas del cursor, con las teclas de tabulacin, y la barra espaciadora o la tecla enter. Es muy sencillo de utilizar. 1. Encienda ambas mquinas virtuales VSA 2. Abra una consola remota de VMware (VMware Remote Console) 3. En el smbolo de inicio de sesin, escriba start y pulse [Intro]

Nota:

30

El color de las imgenes se ha invertido para facilitar la impresin. El VSA presenta un fondo negro y texto blanco. 4. Pulse [Intro] en el smbolo de inicio de sesin

5. En el men, seleccione Network TCP/IP Settings y pulse [Intro]

Suba el cursor hacia arriba para seleccionar < eth0 > and pulse [Intro]

7. Cambie el hostname y configure una direccin IP esttica

31

8. Pulse [Intro] para confirmar la advertencia sobre el reinicio de la creacin de redes 9. Use Back options para volver al men principales de acceso Nota: Repita este proceso para los dems VSA. En mi caso he usado la direccin IP 172.168.3.98 para el segundo VSA SUGERENCIA: Es posible que quiera actualizar su configuracin de DNS para reflejar estos nombres de host y direcciones IP para que pueda utilizar el FQDN en diversas herramientas de gestin.

Instalar el cliente de Gestin


La configuracin avanzada se realiza a travs de la consola de administracin centralizada de Lefthand Networks. Esta es una aplicacin muy simple que se utiliza para configurar el VSA. Tambin hay una versin para Linux. Su PC debe tener una direccin IP valida o enrutable para comunicarse con los dos VSAs. La consola de administracin centralizada de Lefthand Networks se puede descargar gratis desde la pgina web de descargas de Lefthand Networks

http://www.lefthandnetworks.com/vsa_eval.aspx
En este libro, voy a usar la versin para Windows Windows CMC (.exe) La instalacin de la consola de administracin es muy simple, y no tiene mucho sentido documentar dicha instalacin. Una instalacin tpica debera ser suficiente para el propsito de este libro.

32

Configurar el VSA (gestin de grupos, clusters y volmenes)


Agregar el VSAs a la consola de administracin Nota: Antes de comenzar, usted debera de comprobar que su estacin de gestin puede hacer ping al VSA. No va a llegar muy lejos en el prximo paso si no puede!!!. 1. Cargue el CMC, y se mostrara el wizard Welcome to Find Modules 2. Elija a la bsqueda por direccin IP o nombre de host

3. Haga clic en el botn Agregar y escriba la direccin IP o nombre del VSA

33

que

Nota: En este cuadro de dilogo podra verse un estado de unknown" hasta haga clic en Finalizar. 4. Haga clic en Finalizar

5. Haga clic en Close Agregar los VSAs a los grupos de gestin Cada VSA estar en su propio grupo de gestin. Durante este proceso usted ser capaz de establecer nombres descriptivos para los grupos y los volmenes. Claramente tiene sentido utilizar nombres que reflejen un significado tales como: ProtectedManagementGroup y RecoveryManagementGroup

34

Protected_Cluster y Recovery_Cluster Virtual_Machines Volume Replica_Of_Virtual_Machines Volume Alternativamente si lo prefiere, usted puede indicar que los dos VSAs estn en dos lugares diferentes como Londres y Reading o Chicago y Nueva York.

Por supuesto, usted decide que proceso de nombre adopta. Solo tenga en cuenta que estos nombres no pueden incluir ningn espacio. 1. En el men Getting Started Node, haga clic en 2. Management Groups, Cluster and Volumes y luego haga clic en Next en la pgina de Bienvenida 2. Elija New Management Group 3. Para el nombre management group ponga algo significativo como ProtectedManagementGroup y seleccione el VSA que desee aadir, en mi caso es vsa1.rtfm ed.co.uk

Nota: En un entorno de produccin tericamente usted podra tener hasta 5 VSAs en el sitio protegido, todos replicndose entre ellos de forma asncrona, y otros 5 VSAs en el sitio de recuperacin replicndose de forma asncrona contra el sitio de proteccin. No se permiten espacios en el Management Group Name. 4. Seleccione un username y una password.

35

Nota: Este nombre de usuario y contrasea se almacena en una base de datos interna en el VSA. La base de datos est en un formato binario propietario y se copiara a todos los VSAs en el mismo grupo de gestin. Este usuario es diferente a los inicios de sesin de vCenter o directorio activo. 5. Elija manualmente el set time Nota: Como el VSA es un dispositivo (Appliance) virtual debera recibir actualizaciones de tiempo va el servidor de ESX, que es a su vez configurado para NTP. Para habilitar esto, yo he editado el archivo VMX de mis dos VSAs y he aadido esta lnea: tools.syncTime = "TRUE" Crear un Cluster La siguiente fase del asistente es la creacin de un clster. En nuestro caso tendremos un VSA en un grupo de gestin dentro de un grupo, y otro VSA en otro grupo de gestin dentro de un grupo Cluster. El Cluster est destinado para mltiples VSA dentro de un grupo de gestin, sin embargo, no podemos configurar la replicacin o instantneas entre dos VSA en diferentes ubicaciones con solo un sitio. 1. Elija Standard Cluster 2. Escriba un nombre de clster como Protected_Cluster 3. Siguiente, configure una IP virtual. Esta IP es utilizada principalmente por el clster cuando se tienen dos VSAs dentro del mismo grupo de gestin. En mi caso he usado el siguiente IP 172.168.3.97

36

Crear un Volumen El siguiente paso es la creacin de un volumen. Un volumen es otra palabra para describir una LUN. Sea cual sea la palabra con la que usted est familiarizado, lo que estamos creando es un bloque de almacenamiento sin formato, el cual pueda ser accesible por otro sistema (en nuestro caso un servidor ESX) y una vez formateado, se podran crear archivos sobre este. Algunos proveedores de almacenamiento se refieren a este proceso como la creacin de un "sistema de archivos". Esto puede ser un poco confuso ya que muchas personas asocian esto con el uso de EXT3, VMFS o NTFS. Un volumen o sistema de archivos es otra capa de abstraccin entre el almacenamiento fsico y el acceso por el servidor. Esto permite funciones avanzadas tales como el thin provisioning o almacenamiento virtual. Un volumen puede estar parcialmente o totalmente aprovisionado. Con el aprovisionamiento parcial, los volmenes presentados a un servidor o sistema operativo pueden ser incluso mayor en tamao que del almacenamiento real fsico disponible. Por lo tanto, el volumen puede ser de 1TB en tamao, aunque slo haya 512GB de espacio de disco real. Usted puede conocer este concepto como virtual storage por el cual usted adquiere espacio en disco segn lo requiera, en lugar de por adelantado. El inconveniente es que debemos monitorizar la utilizacin actual del almacenamiento muy cuidadosamente.

37

1. Escriba un nombre de volumen, por ejemplo: virtualmachines 2. Ajuste el tamao de volumen, por ejemplo: 1TB 3. Elija Thin para el aprovisionamiento

Nota: En este caso, he creado un volumen llamado virtualmachines que se utilizara para almacenar mquinas virtuales. El tamao del disco "fsico" es 48GB, pero con thin-provisioning voy a presentar este almacenamiento como si fuera un volumen/LUN de 1TB. La opcin de nivel de replicacin, se utilizara si estuviera replicando dentro en un grupo de gestin. En el caso de esta configuracin esto es irrelevante porque estamos replicando entre grupos de gestin. Puede cambiar la configuracin de Thin a Full en cualquier momento que usted desee. Despus de esperar algn tiempo, el grupo y el volumen se habrn creado.

38

Nota: Ahora tenemos que repetir este mismo proceso para VSA2 pero con diferentes nombres y direcciones IP Management Group Name: Cluster Name: Volume Name: RecoveryManagementGroup Recovery_Cluster replica_of_virtualmachines

Nota: Al final de este proceso usted debera tener una de vista similar a esta:

39

Configurar el VSA para la replicacin


Es muy fcil de configurar la replicacin o una instantnea entre dos VSAs en dos grupos diferentes de gestin. Con el VSA Lefthand Networks usamos una "Lista de instantneas a distancia Schedule Remote Snapshot". Esto permite la replicacin asncrona entre dos VSAs con un intervalo de replicacin de su eleccin - en intervalos de 30 minutos o ms. Un ciclo de replicacin ms pequeo entre dos VSAs en el mismo grupo de gestin es soportado, pero no funciona con SRM ya que estos ciclos de replicacin ms pequeos no fueron diseados para ser utilizados a travs de dos sitios. En VSA Lefthand Networks el proceso de la instantnea comienza con una instantnea en el lugar protegido, y una vez completado, esta instantnea es copiada al sitio de recuperacin. Despus de la primera copia, los nicos datos que se transfieren son los cambios o deltas. Tenemos una opcin para controlar la retencin de estos datos. Podemos controlar el tiempo que queremos mantener las instantneas de datos tanto en el grupo gestin de proteccin como en el de recuperacin. 1. En el ProtectedManagementGroup, Protected Cluster, Volumes 2. Haga clic con el botn derecho y seleccione New Schedule Remote Snapshot

40

3. Configure el Recur Every para 30 minutos 4. En la seccin "Primary Snaphot Setup" habilite la opcin Retained for a maximun de 3 snapshots. Nota: Usted decide por cunto tiempo quiere mantener sus instantneas. En esta configuracin, a mi me gustara hacer 3 instantnea en 180 minutos y cuando la cuarta instantnea se haga, las ms antigua sera sobrescrita. Cuanto ms tiempo mantenga sus instantneas y mayor sea la frecuencia de las instantneas, existirn ms opciones para la recuperacin de los datos. En el entorno de prueba que estamos configurando probablemente no tiene sentido guardar los datos durante demasiado tiempo. Cuanto mayor sea la frecuencia en la toma de las instantneas y ms tiempo conserve estas, ser necesario ms espacio de almacenamiento. Para fines de pruebas, la frecuencia de las instantneas deber ser mucho menor, as el espacio necesario para mantener estas ser menor. 5. En la seccin "Remote Snapshot Setup", seleccione RecoveryManagementGroup y 6. En la seccin Volume name, asegrese de que ha seleccionado replica_of_virtualmachines

41

IMPORTANTE: Aqu es donde he visto a mucha gente equivocarse con la frecuencia. Se olvidan de configurar el volumen de destino correcto para la replicacin, o peor an, seleccionan el volumen equivocado!. 7. Haga clic en Retain mximum of: y fije el valor a ser 3 snapshots

Importante: Usted notar, que a pesar de seleccionar todos los parmetros de configuracin, el botn Aceptar no est activado. Esto se debe a que todava no hemos fijado la "fecha de inicio (start date) " o "tiempo (time)" para la primera instantnea. Precaucin:

42

Los valores en la frecuencia de la instantnea y tiempo de retencin, son valores importantes. Si crea ciclos de replicacin demasiado cortos, como yo he hecho aqu, puede ser que a medio camino en una prueba de plan de recuperacin encuentre que la imagen con la que est trabajando actualmente est siendo sobrescrita. Al final, por falta de almacenamiento (yo he configurado la frecuencia en una hora), me quede sin espacio en el almacenamiento a medio camino cuando estaba escribiendo este libro, y eso que mi entorno de pruebas no generaba muchos archivos nuevos o borraba muchos archivos antiguos. 8. Junto a Select `Start At time, haga clic en el botn Edit y utilizando el interfaz de la fecha y la hora, configure cuando desea que el proceso de la replicacin/instantnea comience. 9. Haga clic en OK 10. Haga clic en OK en la cuadro de dilogo de advertencia "Make Volume Remote"

Nota: Este cuadro de dilogo se refiere al volumen de destino (aqu llamado replica_of_virtualmachines) y que puede ya contener datos. El proceso de la replicacin/instantnea sobrescribir este volumen. Para evitar la prdida de datos, el VSA hace una instantnea tambin de este volumen. Nota: Esta funcionalidad estar disponible por slo 30 das, si usted no tiene licencia para el VSA. Tambin puede que reciba advertencias de que usted est trabajando con una versin del VSA de evaluacin.

Monitorizar la replicacin/instantneas

43

Dentro del VSA Por supuesto, usted se preguntara si las replicas/instantneas estn funcionando. Hay dos maneras de confirmarlo. Si expande los volmenes dentro de cada grupo de gestin, se vern las instantneas. Usted puede ver el proceso de replicacin con iconos animados en la pantalla como se muestra a continuacin:

Despus de seleccionar la instantnea remota, ver una pestaa en la parte derecha denominada "Remote Shanpshots". Esto le dir la cantidad de datos que han sido transferidos y el tiempo que se tard en completar la operacin.

La frecuencia de replicacin El VSA Lefthand Networks ofrece un mtodo de replicacin por niveles de "deshacer". Y hasta cierto punto esto es cierto ya que si tenemos tres instantneas (SS1, SS2, SS3), separados por una hora, tenemos la capacidad de volver a la ltima imagen y a la que se cre una hora antes. Sin embargo, y en primer lugar, la mayora de los SRAs utilizan la instantnea ms reciente o crean una instantnea sobre la marcha, por lo que si quisiera utilizar estos niveles de deshacer" (undo), tendra que conocer las herramientas de administracin de su almacenamiento lo suficientemente bien como para replicar una imagen antigua a la parte superior de la pila de las replicas. En otras palabras, SS1 se convertira en SS4.

44

Por ltimo, vale la pena aadir y siempre que sea posible, muchas organizaciones querrn utilizar la replicacin sincrnica, siempre que el ancho de banda y la tecnologa lo permita. La replicacin sincrnica ofrece el nivel ms alto de integridad ya que constantemente y en tiempo real, mantiene el estado de los discos del sitio de proteccin y recuperacin sincronizados. Tambin, esta forma de replicacin es menos restrictiva en cuanto al tiempo donde podemos revertir (rollback) los datos. Usted debe saber, sin embargo, que esta funcionalidad no est automatizada o expuesta al producto VMware SRM y nunca fue parte del diseo. Como tal es una funcionalidad que slo puede lograrse mediante la gestin manual de la capa del almacenamiento. Un buen ejemplo de un proveedor de almacenamiento que ofrece este nivel de control granular sera EMC con su tecnologa "Recovery Point", la cual le permite revertir una rplica segundo por segundo. Tambin, recuerde que la replicacin sncrona est restringida por la distancia, de manera que este mtodo puede ser inviable, segn sus necesidades, para la creacin de un plan de contingencias.

Crear las listas de volmenes y grupos de autenticacin


Evidentemente, habra poca seguridad si solo tuvisemos que darle una direccin IP y la ruta de almacenamiento al servidor ESX. Para permitir el acceso de los servidores ESX al almacenamiento, tenemos que completar tres pasos Crear lista de volumen Literalmente, esta es una lista de volmenes a los que los servidores ESX pueden acceder. En nuestra configuracin, esta contendr un solo volumen, aunque podra contener muchos ms volmenes. Autenticacin de Grupo Este contiene el servidor ESX al que desea conceder acceso. En nuestro caso tendremos un servidor ESX. Los grupos de autenticacin contienen un nico host, y a estos grupos" se les permite el acceso a los volmenes. Los grupos de autenticacin pueden estar basados en CHAP (Challenge Handshake Authentication Protocol), adems del valor de la configuracin del IQN (iSCSI Qualified Name). Algo que resulta, cuando menos extrao, es el hecho de que estos grupos slo contienen un objeto - una referencia a un nico host ESX. IQN (iSCSI Qualified Name) A cada servidor ESX se le asignar un nombre IQN. El nombre IQN se utiliza en el grupo de autenticacin para identificar al servidor ESX. El nombre IQN es una convencin de nombre estndar en lugar de un cdigo de nombre nico, y tiene el formato de iqn-fecha-inversa- fqdn: alias. Como nombre de dominio slo pueden ser registrados una vez en una fecha determinada (si bien este puede ser transferido o vendido a otra organizacin). Un ejemplo de IQN sera:

45

iqn.2001-09.uk.co.rtfm-ed:esx1

En esta configuracin de seguridad sencilla, mis servidores ESX estn en el sitio protegido, y se llaman esx1.rtfm-ed.co.uk y esx2.rtfm-ed.co.uk. Mis otros dos servidores ESX (s, adivinaste - esx3 y esx4) se encuentran en el sitio de recuperacin y no necesitan acceso al volumen en el grupo de gestin protegido. Antes de iniciar un test de DR/BC con VMware SRM ,el SRA de Lefthand Networks necesita conceder acceso a la ltima instantnea de replica_of_virtual_machines. Por el momento ESX3 y ESX4 no necesitan acceso al VSA.

Creacin de una lista de Volumen 1. En el ProtectedManagementGroup 2. Elija la pestaa Volume List 3. Haga clic en Volume List Tasks, y seleccione New Volume List

4. Escriba un nombre como virtualmachines@protected_location 5. A continuacin, haga clic en el botn Add y seleccione el volumen virtualmachines y asegure que los permisos son acceso de lectura/escritura

46

Nota: Este cuadro de dilogo de arriba muestra el volumen que se aade a la lista de volumen 6. Haga clic en OK Creacin de Grupos de autenticacin y configuracin del IQN Los grupos de autenticacin son objetos, en el VSA Lefthand Networks, que contienen los parmetros que permiten a un servidor ESX el acceso a la lista de volumen. Estos deben contener un valor vlido IQN y, opcionalmente, la configuracin de la autenticacin CHAP.

1. En el ProtectedManagementGroup 2. Elija la pestaa Authentication Groups

47

3. Haga click en Authentication Group Tasks, y New Authentication Group 4. Establezca un nombre descriptivo para el Authentication Group como por ejemplo: esx1.rtfm-ed.co.uk 5. Seleccione, de la lista desplegable, el volumen de la lista que ha creado anteriormente - en mi caso virtualmachines@ protected_location 6. En "autenticacin", haga clic en Initiator Node Name y escriba su IQN, como iqn.2001-09.uk.co.rtfm-ed: esx1

48

Advertencia: No es necesaria la autenticacin CHAP para que el VSA funcione con VMware SRM, aunque este ofrece una capa adicional de seguridad. Tambin, y si utiliza la autenticacin CHAP especficamente con el SRA de Lefthand Networks, recibir un mensaje de error indicando que no pudo encontrar un grupo de autentificacin CHAP. 7. Haga clic en OK Nota: Repita este proceso para los otros servidores ESX que necesiten tener acceso al mismo volumen/LUN en su sitio protegido. Conclusin Por ahora, esto completara la configuracin del VSA. Ahora, todo lo que tenemos que hacer es configurar la conexin del servidor ESX al VSA. Actualmente, nuestros servidores ESX, en la ubicacin de recuperacin, no tienen acceso al VSA pero no lo necesitan hasta que muestre la prueba del plan DR/BC.

Configurando el software iSCSI en el ESX


Si usted tiene un adaptador de hardware iSCSI, puede configurar su IP e IQN directamente en la tarjeta. La gran ventaja de esto es que si usted re-instala su servidor ESX, la configuracin iSCSI permanecer en la tarjeta. En la actualidad hay solo dos iniciadores hardware iSCSI soportados por ESX (QLA 4050C y QLA 4052C) pero es posible tambin utilizar el iniciador software iSCSI, localizado en el propio servidor ESX. Las siguientes instrucciones explican cmo configurarlo para que hable con el VSA. Antes de habilitar el iniciador software iSCSI en el servidor ESX, usted necesitara crear un servicio de VMkernel y puerto de consola con una direccin IP correcta para comunicarse con el VSA. La razn por la que necesita el servicio de consola es porque la parte del descubrimiento de volmenes/LUN (SendTargets) y la autenticacin CHAP se hacen va el servicio de consola. Por lo tanto, ambos, el VMkernel y el kernel del puerto de consola necesitan tener acceso. Esto no aplica en el caso de ESX3i, donde slo un puerto VMkernel es necesario. El siguiente diagrama muestra la configuracin de mi esx1 y esx2. Observe que el vSwitch tiene dos tarjetas para la tolerancia a fallos.

49

Antes de proceder a la configuracin del iniciador software de VMware, usted quizs desea confirmar que puede comunicarse con el VSA mediante una simple prueba con ping y vmkping. Habilitar el Iniciador iSCSI Nota: Dependiendo de la versin de ESX 3.x.x que est utilizando, puede o no, tener que abrir manualmente el puerto software iSCSI TCP en el ESX. Siempre he habilitado el iniciador iSCSI manualmente para asegurarme al 100% de que la comunicacin entre los servidores ESX y el destino iSCSI existe. 1. Seleccione el servidor ESX y la pestaa de Configuration 2. Seleccione Security Profile en la pestaa Software 3. Haga clic en Properties 4. En el cuadro de dilogo, abra el puerto TCP (3260) para el Software de Cliente iSCSI

5. Siguiente, haga clic en Storage Adapter y seleccione iSCSI software adapter 6. Seleccione Propiedades ... 7. En el cuadro de dilogo, haga clic en el botn Configure 8. Habilite la opcin como se muestra a continuacin

50

Nota: Esto puede tardar algn tiempo. Sea paciente. Usted no podr establecer un nombre IQN hasta que haga clic en OK. VMware le ayudara con el establecimiento por defecto de un nombre IQN. 9. Haga clic en el botn Configure de nuevo, cambie el nombre IQN autogenerados por uno con sus propias normas, como muestro en el ejemplo siguiente:

Nota: Despus de hacer clic en OK, esta vez se mostrara un cuadro de dilogo que indica que debe reiniciar el ESX

51

Pero vamos a aplazar el reinicio hasta que terminemos completamente 10. Despus, seleccionamos la pestaa Dynamic Discorey y haremos clic en el botn Add 11. Escriba la direccin IP del VSA en su ProtectedMangementGroup en mi caso, 172.168.3.99

Nota: El Static discovery es slo soportado para los iniciadores hardware. 12. Haga clic en OK Nota: Esto puede tardar algn tiempo 13. Despus, reinicie el ESX Nota: Si no reinicia el servidor ESX, la advertencia se mostrara en la pestaa Summary del servidor ESX.

52

Monitorizando sus conexiones iSCSI Hay muchos sitios en donde puede confirmar que hay una conexin iSCSI vlida. Usted debe ser capaz de ver el volumen/LUN con en el cliente Vi al seleccionar el HBA iSCSI virtual en los adaptadores de almacenamiento:

Nota: En las propiedades de la HBA "virtual", vemos como diferentes versiones de ESX 3.x.x muestran diferentes nmeros de HBA virtual (vmhba32 o vmhba40), en nuestro caso es vmhba32.

53

Nota: Si pulsa con el botn derecho sobre la LUN/Volumen, usted debera ser capaz de ver que el estado de la LUN (verde y activa), en el cuadro de dilogo Manage Paths.

Nota: Adems, cuando utiliza el asistente Add Storage Wizard debera ver el volumen/LUN. Sin embargo, se puede ver ms especficamente el estado de las conexiones iSCSI desde la consola de administracin del VSA. 1. Expanda el grupo Protected_Mangement_Group 2. Seleccione Protect_Cluster, y haga clic en la pestaa iSCSI Sessions

54

Nota: En este caso, usted puede ver hay 3 sesiones pero una ha fallado. Esto fue causado porque borre la configuracin iSCSI en el ESX3 mientras estaba conectado al VSA.

Licenciar el VSA
Si usted decide adquirir el VSA, sepa que se licencia por servidor VSA. Como mencion anteriormente, la licencia es emitida por la direccin MAC del VSA. Una vez que ha registrado su MAC con Lefthand Networks, usted obtendr el cdigo de licencia necesario. Para introducir el nmero de su licencia, es necesario el siguiente procedimiento 1. Expanda ProtectedManagementGroup, Protect_Cluster, Modules 2. Seleccione su VSA, y haga clic en la pestaa Feature Registration

Aviso: La interfaz de usuario, muestra la direccin MAC del VSA. De bajo, est el espacio para la clave de licencia. 3. Seleccione Feature Registration Task y seleccione Edit License Key 4. Para terminar, corte y pegue el cdigo de su clave de licencia

55

Apagar el VSA
Para apagar el VSA, se recomienda el uso de la consola de administracin del VSA. 1. Haga clic con el botn derecho en el Management Group 2. Elija Shutdown Management Group

Conclusin
En esta seccin, he demostrado cmo configurar una copia de evaluacin de 30 das del appliance VSA, el cual es compatible con el uso de VMware SRM. Configuramos dos VSAs Lefthand Networks y luego los configuramos para la replicacin y las instantneas. Por ltimo, conectamos el VRA a un servidor ESX. A partir de este momento, le recomendara formatear el volumen/LUN con VMFS para la creacin de mquinas virtuales. De esta forma, usted podra utilizar estas mquinas virtuales para hacer pruebas con VMware SRM. SRM slo funciona con LUN/volmenes que estn formateados con VMFS y que contengan mquinas virtuales. Si usted tiene un volumen VMFS que no contiene ninguna maquina virtual, esta no se mostrar en el asistente de configuracin SRM Manager. Este es, aparentemente, un error muy popular entre la gente que configura SRM. Desde ESX 3.5 y VirtualCenter 2.5, es posible re-alocar el archivo de intercambio (.vswp) de la mquina virtual, a otros datastores diferentes, en lugar de dejarlo en la ubicacin predeterminada. Es un buen consejo re-alocar este fichero de intercambio de las mquinas virtuales en LUNs compartidas en el almacenamiento, pero no replicarlas. Esto reducir la cantidad de ancho de banda necesaria en la replicacin. Esto no reduce la cantidad de espacio en disco utilizado en el sitio de recuperacin, ya que este ser generado automticamente en el almacenamiento del sitio de recuperacin. La versin 1.0.1 de VMware SRM, ya soporta discos en formato RDM (Raw Device Maping ). Cubriremos RDMs unos captulos ms tarde en este libro porque es una caracterstica muy popular de VMware. En el siguiente captulo instalaremos VMware Site Recovery Manager (SRM).

56

Captulo 3: Instalando VMware SRM

57

e La arquitectura de VMware SRM


Antes de comenzar el proces de creacin y configuracin de SRM por primera vez, so es importante comprender la estructura del producto y sus requisitos b a sicos.

o Uno de los principales desafos de esta arquitectura es que, es muy poco probable que el servidor SRM resida solo en una red. Y sin embargo, la cabina de lemente ser parcheada a una red diferent En otras te. almacenamiento, muy posibl palabras, hay cuatro vas dife erentes de comunicacin hacia y desde el se ervidor de SRM: A/Desde la base de datos backend del SRM (SQL u Oracle) de ry A/Desde la cabina d almacenamiento a travs del Site Recover Adapter (SRA) escrito por su proveedor de almacenamiento A/Desde el servidor de vCenter y el servidor de licencias A/Desde el servidor de vCenter en el sitio de recuperacin, el que a su vez ervidor SRM del sitio de recuperacin. El vCe enter acta se comunica con el se como un servidor "pro oxy" para sus respectivos servidores SRM Nota: ble Por supuesto es posib tener todos los roles en un nico Servidor Windows (base de datos, SRM, vCenter, servidor de licencias). En el diagra ama

58

anterior, los roles han sido representados, por claridad, de forma independiente y mostrando los nmeros de puerto utilizados. Le adjunto una lista de los nmeros de puerto y los caminos de comunicacin utilizados en el diagrama: 1. El servidor SRM se comunica con el servidor de base de datos de Microsoft SQL u Oracle. 2. SRM se comunica con el servidor de licencias por el puerto TCP 22000 y 20001. 2/4 SRM se comunica con los dos vCenters, en el sitio protegido y en el sitio de recuperacin por el puerto TCP 443. El vCenter acta como un servidor proxy entre los dos servidores SRM. El servidor SRM escucha en el puerto TCP 8095 basado en SOAP. Los usuarios del cliente Vi, se descargan el plug-in de SRM por un puerto HTTP personalizado, puerto 8096. Si decide utilizar la API, la comunicacin ira por el puerto TCP 9007 y 9008 (SOAP y HTTP personalizado respectivamente). 3. El SRM, a travs del SRA (Site Recovery Adapter), se comunica por una serie de puertos de almacenamiento "dictados" por el vendedor. Por favor, consulte la documentacin especfica del proveedor. Durante la configuracin del SRM "Array Manager", el SRM utiliza un software especial escrito por su proveedor de almacenamiento ( Storage Array Adapter) para descubrir las LUNs/Volmenes que se estn replicando. Esta comunicacin ser a travs de la red, va enlaces UTP de la cabina de almacenamiento de fibra, o directamente a un objeto iSCSI. En un entorno de produccin, tendr que configurar el enrutamiento o la comunicacin intra-VLAN para permitir que el adaptador de SRM pueda comunicarse con su Array Manager. Otro desafo de red es asegurarse de que los servidores de seguridad permiten la comunicacin de un vCenter al otro y de un servidor SRM al. Finalmente, el ltimo desafo es conseguir que las dos cabinas de almacenamiento se comuniquen entre ellas con el fin de replicar y crear instantneas. Componentes de replicacin del almacenamiento SRM asume que usted tiene dos o ms ubicaciones geogrficamente dispersas. La primera es su "sitio protegido". Usted puede conocer este como el sitio donde corren todas las funciones crticas de su negocio. Si pierde este sitio, su negocio no puede funcionar, por lo que se realiza el cambio a un "sitio de recuperacin", el cual puede ser usado en el caso de fallos en el sitio principal. Usted puede conocer mejor este sitio como el sitito secundario o como el sitio DR/BC. Hay ya muchas empresas que alquilan espacio en rack por tarifas comerciales, para proveer un sitio de recuperacin a otras empresas. En mi caso, voy a comenzar con el uso de nombres muy claros para el sitio primario y el secundario. Voy a asumir que tenemos un lugar dedicado para la recuperacin - quizs hemos contratado espacio en rack para esto - y la tolerancia a fallos es unidireccional. Es decir, el sitio principal siempre falla hacia

59

el sitio secundario. Hay otra configuracin diferente, la cual llamamos bidireccional. En este caso, la ubicacin secundaria DR es el sitio principal y, el sitio principal DR, es la ubicacin del sitio secundario. Este enfoque bidireccional se utiliza mucho en grandes empresa donde la ubicacin del sitio Londres DR podra ser las oficinas en Edimburgo y, la ubicacin de las oficinas de Edimburgo DR, sera Londres. Voy a tratar la configuracin bidireccional DR de SRM en el Captulo 8. Otra forma de describir la diferencia entre una configuracin unidireccional y bidireccional, es utilizando los trminos ms convencionales como activo/standy o activo/activo. Voy a seguir con los trminos unidireccional y bidireccional porque son tambin los trminos que encontrar en la documentacin oficial de VMware. En alguno de estos dos sitios hay servidores ESX con mquinas virtuales que necesitan proteccin. Las mquinas virtuales del "sitio protegido", se han replicado con una cierta frecuencia determinada, la cual ser un equilibrio entre su ancho de banda y su tolerancia a la prdida de datos. Cuanto mayor sea el ancho de banda entre el sitio protegido y el sitio de recuperacin, mayor ser la frecuencia con la que podremos replicar los dos sitios. Las grandes empresas pueden y, muchas veces tienen, una mezcla de tecnologas y ciclos de replicacin para facilitar el desplazamiento de los datos fuera del espacio protegido. Quizs tienen un canal de fibra de alta velocidad entre el SitioA y SitioB, pero luego usan una red ms lenta entre SitioB y SitioC. En esta configuracin, la replicacin entre SitioA y SitioB podra ser sincrnica y sin latencia. As, cuando un disco escribe en el SitioA, este dato ya se ha escrito en un disco del SitioB. Esa frecuencia de replicacin ofrece una probabilidad muy baja de prdida de datos. La replicacin de SitioB a SitioC tendr una mayor latencia, pero este tipo es con frecuencia seleccionado como el mejor mtodo para replicar los datos a una distancia considerable y fuera de la zona protegida de una forma econmica. Actualmente, SRM est limitado a crear solo una relacin de sitios uno-a-uno. En la actualidad, no es posible crear una relacin de replicacin spoke-and-hub. Es de esperar que en el futuro, este tipo de configuracin sea posible. Componentes VMware Dejando las consideraciones de almacenamiento a un lado, hay una serie de componentes VMware que necesitan ser configurados. Es posible que ya tenga algunos de estos componentes configurados, si usted ha estado utilizando VMware Vi3 durante algn tiempo. Tanto en el sitio de proteccin, como en el sitio de recuperacin usted necesita: ESX 3.0.x, 3.5 o 3i Update 1 vCenter 2.5 Update 1 Una base de datos para el servidor de SRM en el sitio de proteccin y otra en el sitio recuperacin. VMware soporta SQL 2000 Standard (SQL Express funciona tambin) o superior y Oracle 9i Release 2 Standard o superior SRM en el sitio de proteccin y otro SRM en el sitio de recuperacin (SRM est disponible para Windows XP SP2 Professional, Windows 2003 R2, Windows 2003 Server SP1, Windows 2000 Server SP4 con Update Rollup 1, solo en la versin de 32bits) Adaptador SRM de su proveedor de almacenamiento instalados en ambos servidores SRM. SRM Vi plug-in Enmascaramiento LUN Los servidores ESX en el sitio protegido ven las LUNs reales pero los servidores ESX en el sitio de recuperacin slo ven las "replicas" o instantneas. Esto permite, que en las pruebas, no se

60

interrumpan las operaciones normales y tampoco se interrumpe el ciclo normal de la replicacin entre los dos sitios La resolucin de nombres DNS. Al igual que con Vi3, se recomienda probar todos los mtodos de resolucin de nombres - nombre de host, corto, largo FQDN, e inverso. Una pregunta muy comn, es si es posible replicar la base de datos en vCenter en el sitio protegido al sitio de recuperacin. La respuesta es NO, si usted tiene intencin de usar SRM. SRM asume que las dos bases de datos de vCenter se estn ejecutando de forma independiente la una de la otra. De hecho, una de las tareas de gestin necesarias durante la configuracin de los dos SRM es la "vinculacin" del SRM en el sitio de proteccin con el SRM del sitio de recuperacin. Despus, se mapean los objetos del vCenter (carpetas, resource pools, redes) en el sitio protegido con el sitio de recuperacin. Actualmente, la estructura de la base de datos de vCenter no permite el uso de la replicacin de SQL u Oracle para duplicar esta en el sitio de recuperacin. A efectos de brevedad, voy a asumir que usted sabe cmo configurar ESX y vCenter para que pueda centrarse ms especficamente en la parte del proceso de instalacin y configuracin de SRM. En mi caso, he usado los siguientes nombres para mis componentes: protectedvc.rtfm-ed.co.uk protectedsrm.rtfm-ed.co.uk protectedsql.rtfm-ed.co.uk recoveryvc.rtfm-ed.co.uk recoverysrm.rtfm-ed.co.uk recoverysql.rtfm-ed.co.uk La captura de pantalla siguiente muestra la configuracin completa de mis servidores ESX, VMware DRS / HA Clusters vCenter y otros objetos, incluido carpetas y resource pools, antes de iniciar la instalacin de SRM. Si usted est siguiendo este libro, no tiene necesariamente que adoptar mi estructura y convenciones de nombres, aunque estas son las que voy a utilizar a lo largo de este libro. Por supuesto, ninguna de estas mquinas virtuales se estn ejecutando en un entorno de produccin. Esto es simplemente un entorno de demo para "jugar" con SRM y demostrar la funcionalidad del producto. Por razones obvias, yo recomendara este enfoque de demo antes de instalar SRM en un entorno de produccin. Como puede ver, estoy ejecutando el VSA Lefthand Networks y los componentes necesarios para que funcione SRM.

61

Nota: Usted puede considerar todas las maquinas virtuales de la carpeta/resource pool infrastructrure, como maquinas virtuales locales, las cuales no se replicaran al sitio de recuperacin. Adems, mi Test & Dev resource pools, representa mquinas virtuales que no son crticas para el negocio, con lo que no forman parte de mi plan de recuperacin. Informacin ms detallada acerca de los requerimientos hardware y software Como usted sabe, los requisitos de software y nivel de parches, cambian muy a menudo. Por lo menos usted querr saber si su almacenamiento se ha probado con SRM y es compatible. No me parece muy lgico listar estos requisitos en detalle en

62

este libro. As que en su lugar, le dejo con esta URL, donde encontrar todo tipo de informacin til - PDFs, white papers, guas, webcasts, etc. http://www.vmware.com/products/srm/ En esta otra pgina, usted encontrar la gua oficial de administracin de SRM http://www.vmware.com/support/pubs/srm_pubs.html y algunas otras guas, incluyendo: VMware Site Recovery Manager 1.0 Release Notes (HTML) Getting Started with Site Recovery Manager (PDF) Site Recovery Manager Administration Guide (PDF) Site Recovery Manager Compatibility Matrixes (PDF) Site Recovery Manager API (PDF) La matriz de compatibilidad de SRM, le dir todo lo que necesita saber acerca de lo que est o no esta soportado, como por ejemplo: Qu versin de ESX y vCenter estas soportados y que parches se necesitan? Qu sistemas operativos Windows y Service Packs son necesarios? Qu Base de datos estn soportadas por SRM? Qu Sistemas Operativos podemos proteger con SRM? Qu sistema operativo permite la personalizacin (permite el cambio de la direccin IP)?, Por ejemplo, Solaris no est en la lista. Qu cabina de almacenamiento esta soportada por SRM? Trate a esta matriz de compatibilidad de la misma forma que trata a la lista de compatibilidad de VMware ESX. Si tu configuracin no est en la lista, no est soportada. Su configuracin puede funcionar, pero si se rompe o no funciona bien, no espere que el soporte de VMware le ayude mucho. En cuanto a los requisitos de hardware (fsico o virtual), VMware actualmente recomienda estos mnimos, como un punto de partida: Procesador Memoria Disco Red Intel 2.0GHz o superior o procesador AMD x86. 2GB 2 GB Gigabit recomendado

La escalabilidad de VMware SRM Otra de las preocupaciones que tenemos sobre VMware SRM, es si tiene algn lmite en cuanto al nmero de servidores ESX y mquinas virtuales que puede proteger y, cuntos planes de recuperacin se pueden crear y ejecutar. Hace un momento hablbamos de los mnimos, pero vale la pena mencionar los mximos actuales de SRM. SRM ha sido probado para proteger hasta un mximo de 500 mquinas virtuales por sitio. Puede crear un mximo de 150 grupos de proteccin que a su vez estn vinculados a 150 LUNs/Volmenes replicadas. Puede ejecutar hasta tres planes de recuperacin simultneos. Como con todos los productos, usted puede esperar a que estas cifras aumenten en versiones posteriores. Diseado tanto para el failover como para el failback (recuperacin)?

63

Como puede ver, SRM fue dise desde el primer da para automatizar el failover desde el sitio protegido, hacia el sitio de recuperacin. Tal vez le sorprender saber, que nunca fue parte de la estrategia de diseo, automatizar la recuperacin del sitio de proteccin (failback). En teora, el proceso de failback debera de ser tan sencillo como el proceso de failover, pero siento decir que no es tan sencillo. Ejecutar un proceso de failover o failback es una gran decisin, con o sin software de virtualizacin. Vamos a ver de una forma muy amplia, cmo funciona la versin actual de SRM y lo que se puede lograr con el software en su forma actual. De mis conversaciones con los clientes de VMware, el hecho de no haber un botn grande en SRM que diga "failback, a veces, es visto o considerado como algo positivo y no negativo. Aunque tambin es cierto que hay otros clientes que dicen; donde est el botn de failback? Hay algunas razones del por qu no hay un botn de failback. El failback, en muchos aspectos, es ms peligroso que el failover. Con el failover realmente no hay otra opcin que la de pulsar el botn rojo grande y empezar el proceso. Despus de todo, si un incendio, inundacin, o un ataque terrorista ha destruido total o parcialmente su sitio principal, usted no tendr ms remedio que iniciar el proceso de failover al sitio de recuperacin. Digamos que el proceso ya concluido con xito, y ahora est en el sitio de recuperacin. Si usted est funcionando sin problemas en el sitio de recuperacin, que es lo que le llevara a hacer un failback?. En primer lugar, su personal de ventas estn creando nuevos pedidos y sus financieros estn procesamiento las facturas. Ellos estn generando beneficios para la organizacin. En segundo lugar, los propietarios de las aplicaciones estn contentos porque estas aplicaciones sobrevivieron a la catstrofe y sus servicios/servidores estn online. Debido a estas circunstancias, es ms probable que desee poco a poco y con cuidado volver al sitio principal (si puede). Usted seguramente no desea que el failback sea tan sencillo, como presionar un botn. El hecho mismo de llevar a cabo una recuperacin de esta forma, podra llevar a cabo males mayores. Despus de todo, si su sitio principal se vio gravemente destruido durante un desastre, puede que nunca quiera regresar a ese lugar. Lo que espero que vea, es un proceso de failback ms sencillo y fcil de hacer, con menos pasos y etapas que en la actualiza, especialmente en el rea de la cabina de almacenamiento, para que podamos concentrarnos en lo que realmente importa. Para muchas empresas, el cumplimiento, la auditora y la seguridad es importante. Por eso, el ser capaz de pulsar un botn de "prueba de failover", es por lo que realmente compran VMware SRM. Esto significa que puedo decir a mi empresa, directivos y auditores, mira tenemos un plan de contingencia que ha sido probado y funciona. Sin embargo, para probar realmente un plan de recuperacin o failover, la nica prueba real es la de ejecutar un plan de failback de verdad. En algunos entornos corporativos, la prueba de su plan de recuperacin es cada dos aos. Para estas organizaciones, la falta de una opcin fcil de recuperacin o failback, les resulta un gran inconveniente. No estoy diciendo que el failback no es posible con SRM, es slo que es mucho ms un proceso manual que simplemente presionar el botn de prueba que se ve en el producto de SRM. MUY IMPORTANTE: Algo sobre los volmenes VMFS y el Resignaturing Esta seccin es para aquellas personas que no han asistido a los cursos oficiales de VMware Depoy, Secure and Analyse o para los que han olvidado rpidamente la mayora de lo que se les dice en este curso.

64

Es importante que usted entienda, cual es el concepto de resignaturing y por qu SRM hace esto automticamente. Esto le ayudar a entender algunos de los mensajes raros que a veces SRM nos muestra. En primer lugar, vamos a empezar con una revisin sobre las propiedades de los volmenes VMFS. Antes y despus de formatear un volumen VMFS, el almacenamiento se puede abordar de muchas maneras diferentes: Mediante su Mediante su Mediante su ESX: myvmfs Mediante su myvmfs Mediante su nombre de dispositivo Linux: /dev /sdk nombre de dispositivo VMkernel: vmhba1: 0:15 nombre de volumen, el cual tiene que ser nico en el servidor nombre de DataStore, que tiene que ser nico en vCenter: UUID: 47877284-77d8f66b-fc04-001560ace43f

Es importante saber que el valor UUID debe ser nico y que un ESX no puede tener dos UUID iguales al mismo tiempo. Los UUID son generados por medio de tres variables bsicas; la fecha, la hora y el nmero de LUN, con el fin de garantizar que el valor UUID es absolutamente nico. Esto puede causar desagradables consecuencias si no son coherentes en su numeracin LUN. Es decir, los problemas pueden ocurrir si ESX1 cree que una LUN/Volumen tiene un nmero 15, y otro hosts ESX cree que el mismo bloque de almacenamiento LUN/Volumen tiene el numero 20. Tambin vale la pena decir que en la actualidad, las mquinas virtuales no encuentran sus archivos VMDK y VSWP mediante el nombre de volumen o datastore. Si examina el contenido de un archivo .VMX, ver referencias al valor UUID.

Como se puede ver, los nmeros UUID son muy importantes. El requisito de UUID nicos, presenta retos interesantes para el DR. Por definicin, cualquier imagen o proceso de replicacin configurado en el sistema de almacenamiento est destinado a crear un duplicado exacto del volumen VMFS que, por definicin, incluye el valor UUID. En condiciones normales, un servidor ESX en el sitio protegido, no debe llegar a ver la LUN original y la LUN/instantnea replicada al mismo tiempo. Si esto pasara, ESX suprimira la segunda LUN/Volumen. Si a un ESX se le permiti ver ambas LUNs/ volmenes al mismo tiempo, este estara muy confuso y no muy feliz. No sabr en qu LUN/Volumen podr leer y escribir. Por consiguiente, ESX imprime un mensaje de error en la consola que sugiere que es posible que tenga que hacer un resignature del volumen VMFS.

65

Nota: Soy consciente de que esta imagen es difcil de leer en blanco y negro y que el contraste de color azul sobre fondo negro puede que no se reproduzca muy bien cuando se imprima el libro. La impresin en color tiene un coste prohibitivo para un libro de este tipo y aumentara sus costes por un factor de un tercio. Para su informacin el texto afirma que para la instantnea con numero: "1c6953435349344 se ha desactivado el acceso. Vea la seccin resignaturing de la Gua de administracin de SAN. Si esta LUN fuese una LUN replicada o una instantnea, entonces la forma de resolverlo sera, modificando la configuracin avanzada en el ESX para permitir la resignature y forzar un re-escaneo de la HBA. Esto podra tener algunas consecuencias indeseables. El nombre de volumen/DataStore se cambiaria y se generara un nuevo valor UUID. Si hubiese mquinas virtuales registradas en ese volumen VMFS, tendramos un problema en el que todos los archivos de los equipos virtuales .VMX, apuntaran al valor antiguo UUID, en lugar del nuevo. La buena noticia es que SRM automticamente hace el resignatures de los volmenes para usted, pero slo en el sitio de recuperacin y, automticamente corrige cualquier problema con el archivo .VMX, usando una tcnica llamada "placeholder" o "shadow". Estos archivos temporales ayudan a resolver estas cuestiones de almacenamiento as como se aseguran de que todos los ajustes importantes del archivo original .VMX, como la asignacin de memoria y de CPU, se mantienen. Como el servidor ESX en el sitio de recuperacin podra haber presentado diferentes instantneas tomadas en diferentes momentos, SRM automticamente y por defecto, re-firma o resignaturing el volumen VMFS y cambia el nombre del volumen/DataStore VMFS a su nombre original. Despus, corrige los archivos .VMX de las mquinas virtuales en el sitio de recuperacin para asegurar que se pueden encender sin errores. El cambio de nombre de este volumen, a su nombre original, se puede habilitar editando el archivo vmware-dr.xml. Mostrare esto ms adelante cuando lleguemos a ejecutar nuestra primera prueba de un plan de recuperacin.

66

Esto podra ser considerado por algunos como algo "ms prudente" por parte de VMware, pero esto garantiza menos errores en el servidor ESX, eliminando as el potencial de presentar el mismo UUID ms de una vez. Si dicho resignaturing no se produjo y se present al ESX los dos LUN/volmenes VMFS con el mismo volumen VMFS, DataStore y valores UUID, el administrador recibir un error en la consola del ESX. Algunas personas prefieren evitar por completo este tipo de problemas de replicacin, en lugar de tomar riesgos innecesarios con los datos o tener que lidiar con una capa innecesaria de configuracin manual. Quizs valga la pena mencionar que existen productos de almacenamiento por los que un servidor ESX podra ver la LUN original y su instantnea al mismo tiempo. Estoy pensando en los productos como HP Crosslink/Continuous Access y TimeFinder de EMC. Estas tecnologas estn diseadas para proteger su sistema en caso de prdida de su SAN. Con estas tecnologas, el ESX tendra conectividad a dos cabinas de almacenamiento, las cuales estaran replicndose constantemente de una cabina a otra. La idea es que si toda una cabina de almacenamiento fallase, sera an posible acceder a la LUN en la otra cabina. Es probablemente por esta razn, que por defecto, VMware SRM haga un resignaturing de las LUNs para poner fin a la posible corrupcin de los datos. El Gran Plan Nuestro plan maestro ser el poder ser capaces de tirar todos los servidores ESX en el sitio protegido, simulando la prdida de todos los componentes de nuestra infraestructura, y poder invocar una prueba DR/BC en el sitio de recuperacin.

Limitaciones del producto VMware SRM y erratas


Lo que sigue a continuacin es un cortar y pegar de las notas de la versin de SRM. Lea las notas de la versin de SRM. Detectar problemas potenciales, antes de pasar una semana tratando de resolver un problema que, es muy probable que se mencione en las notas de la versin. Database Mixed mode SQL Server Authentication When configuring a database connection to a SQL Server database that is not on the same host as the SRM Server, select mixed mode rather than Windows authentication. Installation VirtualCenter Database Must Not be Overwritten if VirtualCenter is Updated SRM is a VirtualCenter extension. If you update the VirtualCenter installation that SRM extends, you must not overwrite the Virtual Center database during the update. Doing so removes information that SRM has stored in that database and invalidates the current installation of SRM. Update Servers First To avoid various problems with the SRM plug-in when updating SRM, update the SRM servers before you update the plug-in. Before Updating, Uninstall SRM 1.0 Plug-In Before you can update the SRM plug-in in a VI Client to version 1.0 Update 1, you must use the Windows "Add and remove Software" tool to uninstall the SRM 1.0 plug-in from that client host.

67

Recovering Overwritten Versions of vmware-dr.xml and Other Configuration Files An update of SRM overwrites vmware-dr.xml and other configuration files, including certGenUtil.xml and extension.xml. If you have made any changes to these files, you can recover them from the backup files created by the update (for example, vmware-dr.xml.BAK). Length and Character Set Requirements for Passwords. SRM passwords cannot be more than 31 characters long and must consist entirely of ASCII characters. SRM Service Does Not Start After Reinstallation in a Different Directory. If you uninstall SRM and then reinstall it in a different directory on the same host but re-use the database connection created by the previous installation, the SRM service fails to start. Non ASCII Characters are Not Supported in Some Fields SRM supports entry of non-ASCII characters in most fields during installation. If you enter a non-ASCII character into a field that does not support it, the installer warns you and requires you to re-type the entry in an acceptable character set. Enabling and Disabling the SRM Plug-in The VI Client fails to display the SRM user interface if the SRM plug-in is disabled and then enabled. Workaround: Close and reopen the VI Client after you enable the SRM plug-in. SRM Server Installation Fails and Reports the Error: "Failed to Register Extension" During the SRM Server installation, the installation fails and reports the error message: "failed to register extension." SRM reports this error if VirtualCenter Server has license issues. For example, if the VirtualCenter Server isn't licensed, or it lost connection to its license server, registration of the extension fails during installation. Installation fails if DSN has trailing space During SRM installation, if you specify a DSN that has a trailing space character (for example, "SRM DB "), the installation fails. A Non-Specific Error Message Displays if the SRM Server is Down During SRM Plug-in Installation If the SRM Server is down or unreachable when you try to install the SRM plug-in in the VI Client, the VI Client displays the message "The remote server returned an error: (503) Server Unavailable." Role and Permissions Recovery Plan Administrator Must Have Read Permission for All Recovery Plans A user who has administrator permission for any recovery plan must be granted read permission for all recovery plans. Assigning read permission for all recovery plans enables the user to access hidden metadata that must be read when an administrator role accesses a specific recovery plan SRM Role Assignments and VirtualCenter When you assign a role to an SRM inventory object such as a protection group or recovery plan, that role assignment is not visible in the VirtualCenter Administration Roles pane. You can see it by viewing the properties of the SRM object. SRM Service Failure SRM Service Fails to Start if SRA is Corrupted or Not Found The SRM service will fail to start if an SRA it has been configured to use is uninstalled, becomes corrupted, or is reinstalled in a different directory.

68

SRM Service Fails to Start if VirtualCenter is not Running The SRM will not start unless the VirtualCenter one which it depends is running. Workaround: Ensure that VirtualCenter is running before trying to start SRM. VI Client and SRM Plug-in Display Refresh Issues When Using Multiple Virtual Infrastructure Clients If you are using more than one Virtual Infrastructure Client to manage SRM, changes initiated by one client may not be reflected in the displays of the the other clients. Certificate Warnings when Connecting to SRM The SRM plug-in may report a certificate problem warning about a host name mismatch when you connect to a local or remote SRM server. Unless there are other problems with the certificate, you can accept it for this connection. VI Client Does Not Display Current Information if the SRM Service Fails If the SRM service fails and then reconnects to the SRM Server, the VI Client does not display current information for Site Recovery. Workaround: Restart the SRM Service and then restart the VI Client. VI Client Must Be Restarted if it Loses Connection with SRM Site connection is not updated if the local SRM server loses connectivity with the remote SRM server. Workaround: Restart the VI Client after the recovery SRM Server restarts. Unauthorized operations can sometimes be selected Some operations for which the user does not have privileges appear to be available in the user interface and can be selected. If they are selected, the operation fails due to an authorization failure. SRM Plug-in is Still Present After the VI Client is Uninstalled The SRM plug-in is not uninstalled when the VI Client is uninstalled. After reinstalling the VI Client, the SRM plug-in is still present. Workaround: Using the VI Client, uninstall the SRM plug-in before uninstalling the VI Client. Site Pairing Invalid ESX Server Certificate Causes Errors During Customization Server certificates created by the default ESX installation may appear invalid to SRM and cause errors indicating problems with the server certificate to be logged during customization. Workaround: If you cannot install an acceptable certificate on the ESX host, you can disable certificate checking by setting the value of the <disableNFCServerCertificateChecks> parameter in vmware-dr.xml to true. This forces all ESX server certificates to be accepted, and therefore creates a security risk that could potentially compromise the user name and password for any ESX server involved in customization. SRM Reports Error Messages When Breaking Site Connection After attempting to break the protected and recovery site connection, SRM reports the errors: "Unable to break the connection with remote site because it is currently user by other users" and "The request refers to an object that no longer exists or has never existed." These errors appear if the recovery user permissions are changed to "No Access" when the VI client is connected to the protected site. Workaround: Do not change user permissions to "No Access" from the recovery site while protected site VI Client is connected to remote site with this user. If you receive these errors, restart the protected site's SRM service and the VI Client. Accepting Thumbprints for Secondary Servers During Site Pairing Reports "Incompatible Authentication Method" Error During site pairing, SRM suggests to accept thumbprints for the secondary server.

69

Thumbprint certificate validation during pairing is not a valid option if SRM and VirtualCenter authentication is using trusted certificates. VI Client Displays "Loading..." in the SRM Tab if the SRM Server is Unavailable If the SRM Server is not installed or available, the "Connect To VMware SRM Server" button displays and the SRM tab displays "Loading..." for the status of each SRM component. Workaround: Start the SRM service if it is not running. Configure Array Managers Display is Not Refreshed After Connecting the Protected and Recovery Sites After reconnecting the protected and recovery sites, the Configure Array Managers summary information in the VI Client is not refreshed and the information is out of sync. Workaround: Restart VI Client then launch Site Recovery Manager. Protected Sites Shows "Unable to Connect" After Successful Connection After successful connection between protected and recovery sites, the protected site reports "Unable to Connect" and eventually reports the error: "Low Resources on Pair..." Workaround: 1. Restart the SRM Service. 2. Close the VI Client for the recovery site. 3. Break the connection and configure connection from the protected Summary page. 4. Start the VI Client and log in to the recovery site. 5. Select Site Recovery and configure the connection from the remote site. During Site Connection, an SSL Exception error reports: "The host certificate chain is not complete" When trying to connect protected and recovery sites, a SSL Exception error reports: "The host certificate chain is not complete." This error occurs if the certificate on the protected site is changed before pairing with the recovery site. Workaround: Restart the SRM service on the protected site before pairing with the recovery site. Error Message Displays While Breaking Recovery Site Connection Breaking the connection from the protected site to the recovery site displays the error: "Object reference not set to an instance of an object" after the sites are disconnected. Workaround: Acknowledge the error message. Cannot Break Connection After the VI Client Process is Terminated Abnormally You cannot break the connection with the recovery site from the protected site if the vpxClient.exe process is not running. The error message: "Unable to break the connection with the remote site because it is currently used by other users" is reported. Workaround: Restart both SRM Servers then break the connection between the recovery site and the protected site. Inventory Mappings Information is Incorrect After breaking and reconnecting site pairing, the VI Client at the protection site might not display correct information in Inventory Mappings. Workaround: Refresh the Inventory Mappings to display the actual mappings. Click the Refresh button from the Inventory Mappings tab. Pairing Site to Itself Doesn't Fail in the Correct Step If you select Site Recovery > Configure and enter the local VirtualCenter Server IP address, SRM continues to the next connection step and asks for user credentials. The connection should fail when the local VirtualCenter Server's IP address is entered. Workaround: Do not attempt to pair with the local VirtualCenter Server. When Pairing Sites, Use Trusted Certificates When pairing sites and the certificates of the recovery-site VirtualCenter Server and SRM Server are not trusted by the protection-site SRM server, yellow warning triangles, rather than green check boxes, appear to the left of the Certificate

70

Validation steps. The yellow warning triangles warn the user that the given certificates did not pass the validation requirements that the certificates be signed by a trusted Certificate Authority (CA) and have a DNS value matching the address of the server. During the pairing, the user indicated that the certificates should be accepted based on their SHA-1 thumb-prints. It is a serious security violation to accept certificates based on their thumb-prints without verifying that the thumbprints are correct. Workaround: Ensure that both VirtualCenter Servers and both SRM Servers use trusted certificates. Protection Group VM Name Column Must be Populated When Using Batch IP Customization Tool If you use the batch IP customization tool to customize IP properties, you must copy the VM Name (column 2 of the row for Adapter ID 0) into column 2 of each row that you add for a virtual machine. Protected Virtual Machine Converted to Template Loses Protection If you convert a protected virtual machine to a template, the protection on that virtual machine becomes invalid and must be reconfigured. Otherwise subsequent recoveries of that VM will fail. Workaround:Remove protection from the virtual machine at the protected site, and then reprotect it. No Support for Customization of Debian and Ubuntu Guests Linux guests based on the Debian and Ubuntu distributions (and related ones) cannot be customized. Placeholder virtual machines for these guests are recovered running the configuration that they have at the protected site. Customization Specification Manager Does Not Reflect Changes Made by Batch IP Customization Tool If you use the batch IP customization tool to customize IP properties in a recovery group, the Customization Specification Manager window does not reflect those changes even after you refresh the display. Workaround Close and re-open the Customization Specification Manager window. VI Client Inventory Reports the Error: "The request refers to an object that no longer exists or has never existed" After removing a protection group, the VI Client Inventory view on the recovery site is not refreshed. Attempting to select an object from the Inventory reports the error: "The request refers to an object that no longer exists or has never existed." Workaround: Restart the VI Client. Protection Groups Display is Not Refreshed After Connecting the Protected and Recovery Sites After reconnecting the protected and recovery sites, the Protection Groups display in the VI Client is not refreshed and the information is out of sync. Workaround: Restart the VI Client. Recovery Plan Curly Braces Not Allowed in Recovery Plan Name You cannot use the { or } characters ("curly braces") in the name of a recovery plan. Inaccurate Description of Normal and Low Priority Virtual Machine Startup in Administrator's Guide When a recovery plan includes virtual machines hosted on more than one ESX host, virtual machines that have a recovery priority of normal or low are started in parallel. Because they are started sequentially on each ESX host, the amount of parallelism is determined by the number of ESX hosts.

71

Problems Customizing Certain Linux Guest Configurations During Recovery Linux guests that are not running an ext2, ext3, or ReiserFS file system may experience customization failures when recovered. Error reported when running recovery plans simultaneously Certain array managers do not support simultaneous execution of recovery plans and report an error when such recoveries are attempted. SRM Reports the Error: "Cannot execute scripts" When Customizing Windows Virtual Machines During Recovery During test recovery or recovery, when Windows guests are customized, occasionally the virtual machines attempt to shut down gracefully and SRM reports the error "Cannot execute scripts." This results in a hard shut down after customization is complete and the virtual machine remains powered off regardless of its recovery plan priority. Workaround: Manually power on the Windows virtual machines that report this error. Test Recovery Failure to Power Down Virtual Machine at Protected Site Causes Spurious Report of Recovery Failure If a recovery plan includes a step that powers down one or more virtual machines at the protected site and does not receive confirmation that the requested power-down completed, the recovery plan is reported as failed even though all other steps may have succeeded. A Stop Button Appears After Starting a Recovery Plan Test Occasionally, after you start recovery test for the first time, a "Stop" button appears with the message: "Stop Recovery. Are you sure you want to stop this recovery plan? This process may take several minutes." Workaround: Click "No." The test proceeds and completes successfully. Recovery Plan Test Status is "Running Test" After the Test is Canceled Canceling a recovery plan test from the task list cancels the recovery plan test, but the VI Client displays the status as "Running Test" under Recovery Plans. Converting a Template During a Test Leaves the Virtual Machine Unprotected If you test a recovery plan containing a virtual machine template, and during the test you convert the template to a virtual machine and then power it on, the test cleanup steps do not unregister the virtual machine correctly and its protection is lost. Workaround: To restore protection, manually power-off and unregister the placeholder virtual machine and then reconfigure protection. Miscellaneous Issues Refresh Inventory Mappings Can Make Display Unresponsive at Sites That Support Large Numbers of ESX Hosts When you are connected to a site that supports more than 7 ESX hosts and refresh inventory mappings, the display becomes unresponsive for up to ten minutes. Workaround: A patch that corrects this problem is available on the SRM Download Site Some Arrays May Present Too Many iSCSI Targets When using the ESX software iSCSI stack, SRM can manage up to 23 iSCSI targets per host. Arrays that present each LUN as a separate iSCSI target may exceed this limit. Some Arrays Might Require a Second Rescan. Some storage arrays might require a second rescan to discover LUNs. HP arrays have been identified as having this requirement. To enable the additional rescan, edit the vmware-dr.xml file at both the protected and recovery sites to add a <hostRescanRepeatCnt> element within the <SanProvider> element. Set the value of <hostRescanRepeatCnt> to 2, as shown in the following example:

72

<SanProvider> . . . <hostRescanRepeatCnt>2</hostRescanRepeatCnt> </SanProvider> Incorrect Step in Specify a Nonreplicated Datastore for Swapfiles Procedure. The first line of step 3 of the "Specify a Nonreplicated Datastore for Swapfiles" procedure in Appendix D of the Administration Guide should read "For each host in the cluster:" Long Timeouts for Misconfigured or Corrupted Virtual Machine. If a recovered virtual machine does not power on within the specified timeout period, either because it has been improperly configured or has become corrupted during data replication, the recovery plan will wait considerably longer for that virtual machine to timeout than the interval specified by "Change Network Settings" in the recovery plan. This type of abnormally long timeout typically occurs only when applying a customization specification to the virtual machine." Workaround: During a test recovery, verify that the virtual machine image is not corrupted (will boot successfully) and has VMware Tools installed before customizing it. SRM is Not Compatible With DPM (Distributed Power Management) SRM recovery plans cannot power-on a host that is in standby mode. If a recovery plan specifies that a host at the recovery site exit standby mode, the host will remain in standby mode, and the virtual machines assigned to that host will not start. Log Collector Does Not Support non-ASCII Encodings The log collector does not support use of non-ASCII encodings when writing log files. Japanese Characters in SRM Log Files Use Shift-JIS Encoding To read these log files, use a browser, viewer, or editor that can interpret Shift-JIS. Cannot Specify RDM Devices for Templates You cannot specify an RDM device in a virtual machine template. Problems When a LUN in a Consistency Groups is Not Part of a Datastore Group If a consistency group contains a LUN that is not used as a datastore or as an RDM device, SRM may not be able to recover that consistency group. Workaround Add a virtual machine without an OS that has the LUN mapped as an RDM device. VirtualCenter 2.5 Simultaneous Boot Limit VirtualCenter 2.5 does not allow you to boot more than 16 virtual machines simultaneously. "Unexpected MethodFault" error when using VC 2.5 Update 1 When you are using SRM in conjunction with Virtual Center 2.5 Update 1, attempts to connect to the recovery site sometimes fail and log an error message of the form "DR: Unexpected MethodFault". Workaround: Upgrade to Virtual Center 2.5 Update 2 or later, or re-start the VirtualCenter server at the recovery site. SRM is Incompatible with DRS Clusters That Mix ESX 3.5 and ESX 3.0.x Hosts SRM does not support using ESX 3.5 and ESX 3.0.x versions of ESX Server in DRS clusters. Virtual machines fail and report errors during customization and resource pool configuration fails. Workaround: Create DRS clusters using ESX hosts of the same version. SRM Alarms Appear in the VI Client After SRM is Uninstalled SRM Alarm Status (if any) is kept after SRM is uninstalled. If the VirtualCenter Server is not reinstalled and you install SRM again, the previous SRM Alarm Status is applied. The srm-config Tool Exits and Reports the Error: "Error [2]: OSERROR [0x80090016] Failed to open crypto key container for certificate" During the SRM certificate replacement process, a Windows API can fail with the

73

error message: "Failed to open crypto key container for certificate." This is caused by one of the following: A missing operating system internal file in the following folder: C:\Documents and Settings\All Users\Application Data\Microsoft\Crypto\RSA\MachineKeys Incorrect permissions of one of the following folders: C:\Documents and Settings\All Users\Application Data\Microsoft\Crypto C:\Documents and Settings\All Users\Application Data\Microsoft\Crypto\RSA\S1-5-18 C:\Documents and Settings\All Users\Application Data\Microsoft\Crypto\RSA\MachineKeys

Workaround: Run the command again or fix the permissions.

Licenciar VMware SRM


SRM se licencia usando el servidor de licencias estndar de VMware. No es necesario modificar sus archivos de licencia. Se trata simplemente de copiar su archivo de licencia SRM.LIC en el directorio de licencias, para que despus y, utilizando el administrador de licencias de VMware, pulsemos al botn de re-read license file. En este punto tal vez valga la pena explicar que, VMware SRM tiene dos diferentes modelos de concesin de licencias, ya que este puede ser configurado de dos modos, unidireccional (activo/standby) y bidireccional (activo/activo). Con la configuracin unidireccional, usted slo necesita una licencia de SRM para las mquinas virtuales que quiere cubrir con SRM. No tenemos que tener una licencia en el sitio de recuperacin para SRM. Esto no significa que usted pueda ejecutar Vi3 en el sitio de recuperacin de forma gratuita. Si usted est ejecutando ESX 3.5 y vCenter en el sitio de recuperacin, necesitar licencias para estos productos. Si est ejecutando ESX3i actualizacin 2, el cual fue lanzado en agosto de 2008, debe de saber que el producto ha sido liberado de forma gratuita. Sin embargo, el sistema de gestin de vCenter, el cual es necesario para la aplicacin de SRM, no es gratuito. Si activa su plan de recuperacin de una forma real y, al hacerlo, usted hace un failover hacia el sitio de recuperacin, entonces es necesario tener licencias CPU Socket para que se ejecute en ese sitio durante cualquier periodo de tiempo. Cuando utilice en SRM, la opcin de failback, se le permitir usar temporalmente su licencia de SRM del sitio protegido en el sitio de recuperacin para comenzar el proceso. Esto es legal y est dentro de los trminos y condiciones de VMware SRM EULA. Si est instalando una configuracin bidireccional tendr que tener una licencia de SRM en ambos lugares. Posteriormente, en este libro tambin enseare una configuracin bidireccional. Dada la complejidad actual en torno a la concesin de licencias de SRM, algunos clientes han propuesto posibles escenarios donde el modelo de licencias por socket falla. Aqu va un buen ejemplo. Digamos que tengo un clster DRS/HA con 32 nodos, donde cada servidor ESX tiene 4 sockets y 4 ncleos por socket, con un total de 16 ncleos por servidor ESX. Eso significa 128 licencias socket que tendra

74

que comprar en el sitio de proteccin. Pero qu pasa si slo tenemos 5 mquinas virtuales que necesitan proteccin? Esto ha llevado a algunos expertos a sugerir que el modelo de licencia por cada mquina virtual que queremos proteger habra sido mejor para SRM. De esta forma slo pagara por lo que quiere proteccin. En primer lugar, y siendo consciente de este punto de vista (despus de todo, es un intento de ahorrar dinero en licencias,) es muy poco realista pensar que, una organizacin con este nmero de servidores ESX, tendr un nmero tan pequeo de mquinas virtuales que necesitan proteccin. En segundo lugar, sera muy difcil que VMware implemente este cambio rpidamente ya que la principal herramienta para la concesin de licencias sigue siendo FLEXnet, la cual cuenta el nmero de sockets, en lugar del nmero de vCPUs en uso. Un cambio en Flexnet requerira un cambio en la arquitectura del sistema de concesin de licencias de VMware. Mi ltima palabra sobre este debate, es que creo que esto ilustra, que el contar los sockets para la concesin de licencias de productos, se ha convertido algo desfasado, sobre todo porque el mismo hecho de virtualizar ha hecho del licenciado de CPUs sea algo cada vez ms misterioso . Creo que es muy revelador el hecho de que uno de los competidores de VMware, Citrix XenServer, opt por un modelo de licencia por servidor fsico en lugar del modelo por socket. En los ltimos meses, VMware ha desplazado el objeto de la conversacin diciendo que no importa el nmero de socket que su servidor pueda tener, si usted tiene el hipervisor libre como es el caso de ESX3i. Pero el problema es que la gestin de alto nivel de productos como VMware SRM, todava estn ligados al antiguo modelo de por socket. De todos modos, la concesin de licencias puede ser un tema muy confuso y a menudo es comparable con comparar tarifas telefnicas de un proveedor con otro. As que, aqu va un simple consejo, por el momento, para el licenciamiento de VMware SRM: Cuando usted crea un grupo de proteccin (para proteger mquinas virtuales), usted necesita una licencia. IMPORTANTE: Tanto la licencia de los servidores de proteccin, como los servidores del sitio de recuperacin, deben ser correctamente licenciados. 1. Descargue su archivo SRM.LIC 2. Copie el archivo .lic en C: \Progam Files\Vmware \VMware License Server\Licenses en su servidor de licencias - en la mayora de los casos este tambin es su servidor de vCenter Nota: Su archivo de licencia debe tener la extensin .lic 3. Abra la herramienta VMware License Manager 4. Seleccione la pestaa Start/Stop/Re-Read 5. Haga clic en el botn ReRead License File

75

Nota: Esto deber actualizar la informacin de la licencia, en la pestaa de Administracin de Licencias:

Configurando la conectividad de la base de datos de VMware SRM


SRM requiere dos bases de datos, una instancia de SQL u Oracle en el sitio de proteccin y otra instancia de SQL u Oracle en el sitio de recuperacin. Usted puede utilizar la autenticacin de Windows o la autenticacin de SQL, para tener el servidor de Base de Datos separado del servidor de SRM. Sin embargo, ambos servidores, tanto el servidor de SQL como el servidor de SRM, deben ser parte del mismo dominio. Para el servidor SQL, el usuario de la base de datos de SRM no necesita los permisos DB_OWNER, como es el caso en la base de datos del vCenter. Por ltimo, la cuenta que utilizara para acceder a la base de datos de SRM, debe tener privilegios de administrador. SRM es compatible con toda una serie de base de datos como SQL 2005 con SP1 o superior y SQL 2000 con SP4. Para los usuarios de Oracle, Oracle 91 Release 2 Standard y superior son compatibles. Por ltimo, recordar que con SQL 2005, usted

76

tendr que instalar el SQL Native Client en los servidores SRMs del sitio de proteccin y recuperacin respectivamente. Si est usando un servidor de Oracle 9i, la funcionalidad SRM Bulk Insert debe desactivarse. Adems, despus de la instalacin de SRM, usted debe editar el archivo de configuracin vmware-dr.xml en su servidor SRM y cambiar la configuracin de EnableBulkInsert a falso. La ubicacin predeterminada de este archivo es: C:\Program Files\VMware\VMware Site Recovery Manager\config Despus de cambiar el archivo de configuracin, reinicie el servicio de Site Recovery Manager de VMware en los servidores SRM que estn utilizando esta base de datos, para que esta configuracin surta efecto. Lo que sigue, es una gua paso a paso sobre la creacin de la base de datos en SQL 2005, utilizando la autenticacin de SQL con un servidor SQL externo. La gua oficial de la administracin de SRM no incluye una gua detallada paso a paso de la configuracin de SQL. El curso de formacin oficial de SRM dice que debe utilizarse los permisos de DB_OWNER sobre la base de datos de SQL. Los permisos expuestos a continuacin puede ser excesivos, pero SRM he estado funcionando por algn tiempo sin ningn error. Personalmente, espero que muy pronto VMware publique, en la prxima gua de administracin o en un artculo KB, los permisos que son necesarios para la base de datos, con una gua paso a paso de cmo hacerlo para que los administradores de VMware, que dicen no ser expertos en SQL y no tienen un equipo DBA dedicado, puedan consultar esta cuando necesitan ayuda. Creacin de la base de datos y configuracin de permisos 1. Cree un usuario local en el servidor SQL 2. Abra Microsoft SQL Server Management Studio 3. Inicie sesin en el servidor SQL, y haga clic con el botn derecho en Databases 4. Elija New Database y en el campo elegir el nombre de base de datos escriba: srmprotected-db(o algo parecido que corresponda) y seleccione OK

77

5. Expanda la ficha Security y haga clic derecho en Logins y seleccione New Login 6. Escriba el nombre de la cuenta de usuario creado para la base de datos de SRM protegido, en mi caso llam a mi usuario srmprotected-db 7. Establezca la base de datos predeterminada que sea la base de datos creada en el punto 2

78

8. Haga clic en la ficha de User Mapping, seleccione la base de datos SRM protegida, habilite el permiso db_owner y seleccione OK

9. Haga clic en OK y confirme de nuevo la contrasea Nota: Ahora repita lo anterior pero esta vez en la base de datos de SRM del sitio de recuperacin Configurar una conexin DSN Nota: Es posible, durante la instalacin de SRM, seleccionar el botn "ODBC DSN Setup, pero yo prefiero tener la configuracin de DSN hecha antes de empezar y resolver cualquier problema relacionado con la base de datos antes de empezar con la instalacin de SRM. Advertencia: Si est utilizando SQL 2005, por favor instale el SQL Native Client 1. Entre en el servidor SRM del sitio protegido 2. Abra el ODBC Data Source Administrator en las herramientas administrativas desde el men Inicio 3. En el ODBC Data Source Administrator elija la pestaa System DSN 4. Haga clic en el botn Add 5. Al final de la lista elija SQL Native Client y seleccione Finish Advertencia: Si est utilizando SQL 2000, seleccione de la lista SQL Server

79

6. En el campo nombre de Create a New Data Source to SQL Server, escriba VMware SRM 7. De la lista desplegable, seleccione su servidor SQL Protegido y haga clic en Next

8. Seleccione "With SQL Authentication" y escriba la cuenta de usuario y la contrasea de la base de datos creada en SQL y haga clic en Next 9. Habilite "Change the default database to" y seleccione la base de datos de SRM protegida que cre anteriormente 10. Haga clic en Next y Finish Nota: Debera ahora estar en condiciones de confirmar todos los cuadros de dilogo relacionados con la configuracin del ODBC. Pruebe tambin que tiene conectividad con el servidor de base de datos. Nota: Repita esta configuracin del DSN para el servidor SRM del sito de recuperacin.

Instalacin del servidor de VMware SRM


Instalacin del software SRM La instalacin de SRM es la misma tanto para el servidor del sitio protegido como para el servidor del sitio de recuperacin. Durante la instalacin se necesitan los siguientes datos: vCenter FQDN Un nombre de usuario y contrasea vlidos para autenticarnos con vCenter Aceptar un certificado por defecto o generar uno propio Valores de identificacin de sitio como el nombre del sitio, informacin de contacto y correo electrnico Credenciales de SQL/Oracle DSN para la base de datos correcta 1. Entre en el servidor SRM del sitio protegido

80

2. Ejecute el instalador de SRM .exe 3. Haga clic en next a la pantalla habitual de bienvenida y EULA 4. Seleccione un disco de ubicacin para el software SRM 5. En el cuadro de dilogo SRM to vCenter resgistration, introduzca el nombre del vCenter del sitio protegido y credenciales vlidas para autenticar con dicho vCenter

Nota: La errata en este cuadro de dilogo es que, aunque el nmero de puerto por defecto utilizado para comunicarse es el puerto TCP 80, si nos fijamos en los detalles de SRM, una vez terminada la instalacin del sistema, este se comunica con vCenter por el puerto 443. Usted debe tener abierto el puerto 80 para que este cuadro de dilogo funcione y, si modifica el puerto en el cuadro de dilogo al puerto 443, usted recibir un mensaje de error.

Nota: Es recomendable que usted cree una cuenta dedicada para este fin y la excluya de cualquier poltica de restablecimiento de contrasea que pueda tener en su dominio. 6. Despus de un corto periodo de tiempo, aparecer una advertencia de seguridad del certificado. Elija Yes

81

Nota: Como mencione hace un momento, a pesar de que el cuadro de dilogo utiliza por defecto el puerto 80, se produce un intercambio de detalles de los certificados. Esto es hecho as, para confirmar que el sitio SRM de proteccin "confa" en el servidor de vCenter. Esta advertencia se produce al usar los certificados auto-generados del servidor vCenter, los cuales no coincide con el FQDN del servidor vCenter. Para eliminar este mensaje que aparece, tendra que generar certificados de confianza para el vCenter en el sitio de proteccin y recuperacin.

7. El siguiente cuadro de dilogo tambin se refiere a la seguridad. Tambin es posible que la instalacin de SRM pueda generar un certificado para demostrar la identidad del servidor de SRM. Alternativamente usted puede tambin crear sus propios certificados. Seleccione Automatically generate a certifcate y haga clic en Next

82

8. Como parte de la auto-generacin del certificado SRM, debe indicar su organizacin y unidad de organizacin

Advertencia: Espacios, comas, puntos y caracteres Alfanumricos son todos vlidos. Caracteres no vlidos incluyen el guin y el subrayado

83

9. Siguiente, introduzca la informacin del sitio. En este caso, yo he aceptado el nombre por defecto del sitio. Aada la direccin de correo electrnico

Nota: Los puertos SOAP/HTTP (9007/9008) slo se utilizan, si decide utilizar el kit de desarrollo de software (SDK), para crear aplicaciones o scripts que automaticen an ms SRM. El puerto de escucha SOAP (8095) se utiliza para enviar y recibir peticiones del servicio SRM. El puerto de escucha HTTP (8096) se utiliza en el proceso de descargar del plug-in del SRM. La configuracin del correo electrnico se puede encontrar en el archivo extension.xml, situado en el servidor SRM. 10. Luego, complete la informacin de la conexin de la base de datos

84

Nota: Recuerde, que estas credenciales no tienen nada que ver con el nombre de usuario y la contrasea utilizada para autenticar con vCenter. La opcin "Connection Count" se utiliza para definir el tamao inicial del pool que quiere para conectarse a la base de datos. El "pool" gestiona las conexiones abiertas a la base de datos. Es posible que el administrador de bases de datos, pueda restringir el nmero de conexiones abiertas de una base de datos que los usuarios pueden tener en un momento dado. Si ese es el caso, entonces "Max Connections" debe ser configurado para no superar ese nmero. Instalacin Site Recovery Adapter SRA Lefthand Networks El Site Recovery Adapter (SRA) es un plug-in suministrado por su proveedor de almacenamiento. En la versin Beta de SRM, algunos SRAs fueron incorporados en el producto, mientras que otros tenan que ser descargados e instalados en el SRM. Ahora, y partir de la versin final de SRM, usted debe de bajarse su SRA e instalarlo por separado. Sin el SRA habr opciones para controlar el funcionamiento del motor de SRM que no estaran disponibles. Puede descargar su SRA desde el web de VMware. La instalacin del SRA, ampla la funcionalidad del Cliente Vi. Sin un SRA instalado, no se podra completar la parte posterior a la configuracin de la configuracin del SRM. El dilogo que se muestra a continuacin no tendra opciones en la lista desplegable

85

Esto permitir a VMware SRM, una vez que el SRA ha sido instalado, pueda descubrir las LUNs/Volmenes en los sitios de proteccin y recuperacin. Tambin encuentra que LUNs/Volmenes se estn replicando. La verdadera idea de esto es permitir que el administrador del sitio de recuperacin pueda ejecutar planes de recuperacin sin tener que gestionar la capa de almacenamiento directamente. El SRA automatizar el proceso de presentacin de las LUNs replicadas o instantneas correctas a los servidores ESX en el sitio de recuperacin cuando estas se necesiten. En mi ejemplo, yo estoy usando un appliance virtual (VSA) de Lefthand Networks por lo que necesito descargar e instalar el SRA de Lefthand Networks. La instalacin del SRA es muy simple y en la mayora de los casos es, siguiente-siguiente-yfinalizar junto con el reinicio de los servicios de VMware SRM. 1. Descargue el SRA de Lefthand Networks desde su web 2. Haga doble clic en el ejecutable 3. Despus del proceso de extraccin, usted ver una pantalla de bienvenida

86

4. Haga clic en Next 5. Acepte el acuerdo de licencia 6. Abra la consola de Servicios y reinicie el servicio de VMware Site Recovery. Alternativamente usted puede reiniciar el servicio de SRM desde la lnea de comandos con net stop vmware-dr net start vmware-dr Nota: Repita esta instalacin en el servidor SRM del sitio de recuperacin

Instalacin del plug-in SRM en el cliente Vi


Al igual que con la instalacin de VMware Update Manager o VMware Converter, la instalacin del "plug-in" para SRM, "extiende" el cliente Vi con funcionalidad de gestin adicional. Despus de la instalacin correcta de los SRMs usted debe ver el plug-in Recovery Manager plug-in disponible en el men de plug-ins. Este plug-in necesita ser instalado para llevar a cabo la primera configuracin y posterior configuracin del servicio SRM. 1. Inicie sesin con el cliente Vi en el vCenter del sitio de proteccin o recuperacin 2. En el men elija Plug-ins y Manage plug-ins 3. Haga clic en el botn Download and Install

87

Nota: No hay nada de especial en la instalacin de un plug-in, aparte de aceptar el EULA y hacer clic en siguiente 4. Luego seleccione la pestaa Installed en el Plug-in Manager y active el plug-in. Esto debera aadir un icono Site Recovery en la barra de botones principales

88

Advertencia: En ocasiones, he tenido que cancelar el cuadro de dilogo Pluging Manager y volver a abrirlo para que la opcin "enable" aparezca. En algunos casos, tambin he tenido que cerrar completamente el cliente Vi y volver a cargarlo. Si usted es paciente, la opcin de enable debera aparecer despus de un breve perodo de tiempo. 5. Al hacer clic en el botn Site Recovery por primera vez, usted recibir una advertencia de seguridad muy similar a las advertencias que recibe cuando se carga el cliente Vi. Esta advertencia se produce por el uso de la auto-generacin del certificado para SRM.

89

Si no desea que aparezca este mensaje de nuevo, active la opcin de no mostrar ninguna de las advertencias de seguridad y haga clic en el botn Ignore

No es posible conectar con el servidor de SRM


Si usted pierde la conectividad o reinicia el servicio de SRM en cualquiera de los sitios protegidas o de recuperacin y tiene el cliente de Vi abierto, recibir un cuadro de dilogo de error come este:

Si se produce un fallo al conectarse al servidor de SRM ver esto cuando usted haga clic en el icono del sitio de recuperacin

Si esto ocurre, confirme que el servicio SRM esta arrancado. Si SRM no se iniciar, confirme la conectividad con la base de datos SQL y otras dependencias como la IP y la resolucin de nombres DNS. Adems, si el sitio protegido no se puede conectar al sitio de recuperacin (tal vez ha perdido la conectividad con el sitio de recuperacin), ver este mensaje de error en la ventana Site Recovery Manager

Si esto le sucede a usted, compruebe las cosas sospechosos habituales, tales como un fallo del servicio en el sitio recuperacin y, a continuacin, haga clic en el enlace Configure para el reabastecimiento de las credenciales del vCenter en el sitio de recuperacin.

90

Conclusin
En este captulo, he intentado ponerle en marcha a travs de las principales etapas, sobre como configurar e instalar el servicio de SRM. Bsicamente, si usted puede crear una base de datos y apuntar a esa base de datos, usted entonces puede instalar SRM. A este respecto, es muy similar a la instalacin de VMware Update Manager. Recuerde que su mayor desafo con SRM est en, conseguir ver a travs de la red de comunicaciones, el sitio de proteccin con el sitio recuperacin y esto no solo se trata de una cuestin de IP y DNS. Existen posibles consideraciones de seguridad (firewall) que deben tenerse en cuenta tambin. Es ah donde vamos en el prximo captulo, las fases posteriores al perodo de configuracin del producto SRM, que se inician en el vCenter del sitio protegido. En el siguiente captulo veremos la configuracin de vinculacin de los dos sitios as como el mapeo de los inventarios y grupos de proteccin.

91

92

Captulo 4: Configuracin del Sitio de Proteccin

93

La vinculacin de SRM del sitio de proteccin con el sitio de recuperacin


Una de las principales tareas llevadas a cabo en la primera configuracin de los servidores SRM, es la vinculacin del servidor SRM del sitio protegido con el servidor SRM del sitio de recuperacin. Aqu es donde se configura una relacin entre los dos sitios, y en realidad esta es la primera vez que indicamos quien es el sitio protegido y el sitio de recuperacin. Al hacer esta configuracin por primera, yo personalmente prefiero tener dos ventanas del cliente Vi abiertas, una para el vCenter del sitio de proteccin y otra para el vCenter del sitio de recuperacin. De esta manera consigo controlar mejor el proceso de emparejamiento. As se podr ver, en tiempo real, el efecto del cambio en el sitio de proteccin sobre el sitio de recuperacin.

Como usted puedo sospechar, el proceso de emparejamiento significa poner en comunicacin el servidor de SRM del sitio de proteccin con el servidor SRM del sitio de recuperacin para que as estos puedan compartir informacin. Si se fija detenidamente vera las direcciones IP de mis servidores SRM. Uno tiene la direccin IP 192.168.2.182 y el otro tiene la direccin IP 192.168.2.181. Las dos direcciones IP, estn dentro de mi red de entorno de pruebas, pero en realidad sera ms probable que los servidores SRM estuvieran en dos redes totalmente diferentes y dos lugares fsicos totalmente diferentes. Despus de todo, este es el significado de un plan DR/BC, verdad? Aunque, tambin es posible tener el mismo rango de IPs en diferentes ubicaciones geogrficas. El concepto de estas redes se llama "stretched VLAN". Si se implementa este concepto de red puede llegar a simplificar, en gran medida, el proceso de emparejamiento, as como simplificar enormemente la configuracin de

94

red de las mquinas virtuales cuando se ejecutan pruebas de planes de recuperacin con SRM. Si usted nunca ha odo hablar del concepto de stretched VLANs, vale la pena que lo repase, ya que su uso facilita los planes DR/BC. Este tipo de configuracin - stretched VLAN - como veremos ms adelante, puede realmente reducir la carga administrativa al ejecutar planes de prueba o planes reales de DR. Este proceso de vinculacin, a veces se le denomina "establecimiento de la reciprocidad"(Establishing Reciprocity). Actualmente, el proceso de emparejamiento es de uno-a-uno. Todava no es posible crear emparejamientos con ms de dos SRM y ms de dos sitios. La estructura del producto actualmente impide vinculacin de relaciones de muchos-a-muchos. La instalacin del software SRM y vCenter sobre la misma instancia de Windows puede ahorrarle una licencia de Windows. Sin embargo, algunas personas podran considerar este enfoque como un aumento en la dependencia del sistema de gestin de vCenter. Ciertamente hay una preocupacin o ansiedad acerca de la creacin de un escenario donde todos los "huevos estn en una canasta". Si sigue este razonamiento a su extremo lgico, su servidor de administracin tendr que hacer de muchos roles, tales como: Servidor Servidor Servidor Servidor Servidor vCenter Web Access de Consolidacin Guiadas de Conversin (Converter Server) de Actualizaciones (Update Manager Server)

Cuando conecte los dos sitios juntos, siempre inicie sesin en sitio protegido y desde aqu conctese al sitio de recuperacin. Este orden de conexin dictara la relacin entre los dos servidores SRM. 1. Inicie sesin con el cliente Vi en el vCenter del servidor del sitio protegido 2. Haga clic en el icono Site Recovery 3. En la pestaa Summary del panel de Configuracin de proteccin haga clic en Configure al lado de Connetion Option

95

4. En el cuadro de dilogo, escriba el nombre del vCenter del sitio de recuperacin

Advertencia: Al introducir el nombre del servidor de vCenter, utilice minsculas. El nombre del servidor de vCenter debe ser exactamente igual al nombre que uso durante la instalacin inicial del vCenter Adems, aunque usted puede usar el nombre o la direccin IP durante el proceso de emparejamiento, sea coherente. No mezcle direcciones IP y nombres de dominio completo, ya que esto slo confunde al SRM. Nota:

96

Como vimos anteriormente durante la instalacin, a pesar de escribir el puerto 80 para conectarse al vCenter, parece ser que la comunicacin es a travs del puerto 443

Nota: De nuevo, si usted est usando uno de los certificados auto-generados que vienen con la instalacin por defecto de vCenter, recibir un cuadro de dilogo de advertencia sobre el certificado de seguridad

5. A continuacin, especifique el nombre de usuario y contrasea del servidor vCenter del sitio de recuperacin Nota: De nuevo, si usted est usando uno de los certificados auto-generados que vienen con la instalacin por defecto de vCenter, recibir un cuadro de dilogo de advertencia sobre el certificado de seguridad

Advertencia: Aunque estos dos cuadros de dilogo de advertencia parecen el mismo, son advertencias sobre servidores completamente diferentes el servidor vCenter y el servidor SRM del sitio de recuperacin.

97

6. En este punto, el asistente de SRM intentar completar las conexiones y un cuadro de dilogo le mostrar el progreso de dicha tarea

Tambin ver una barra de progreso sobre la barra de tareas en el vCenter del sitio protegido

Al final del proceso, se le pedir que se autentifique el cliente Vi del sitio de proteccin contra el sitio de recuperacin. Si tiene dos clientes Vi abiertos al mismo tiempo en ambas sitos (protegido y recuperacin), usted recibir dos cuadros de dilogo

Una vez ms, puede recibir una advertencia de seguridad si ha utilizado un certificado auto-generado por el vCenter

98

Nota: Al final de esta primera etapa debe comprobar que los dos sitios estn marcados como conectados. La informacin tanto para el sitio local como para el sitio remoto, deberan aparecer en la pestaa Summary. Adems podrs ver que hay una opcin para romper el vnculo entre los dos servidores SRM.

Nota: El botn break es lo contrario al proceso de emparejamiento. Es difcil pensar en un caso de uso til de esta opcin. Supongo que quizs quiera en un futuro, romper el emparejamiento para crear una relacin diferente. En un caso extremo, si ha tenido un verdadero desastre el sitio protegido, puede que se haya perdido irremediablemente. SUGERENCIA: Esta ventana tambin le pueden dar informacin til acerca del estado de la falta de recursos entre la pareja. Esto puede significar tambin que tenga que modificar los parmetros por defecto que controla esta alerta, en el archivo vmware-dr.xml

99

Nota: A partir de ese momento cada vez que cargue el cliente Vi por primera vez, y haga clic en el icono Site Recovery Manager, se le pedir un nombre de usuario y contrasea para el vCenter remoto. El mismo cuadro de dilogo aparece en el sitio de recuperacin de SRM.

Configuracin de los Array Managers


El siguiente elemento esencial en la etapa posterior a la configuracin de SRM, es habilitar el software de gestin de la cabina de almacenamiento. El Array Manager, que a menudo es slo un front-end grfico, proporcionara las variables al SRA. El SRA es a menudo slo una coleccin de scripts que llevan a cabo tres tareas principales Comunicarse y autenticarse con el Array (Cabina de almacenamiento) Descubrir que LUN se est replicando y seleccionar/crear una instantnea antes del ejecutar el test o failover Trabajar con SRM para iniciar las pruebas, la limpieza despus de la prueba, y desencadenar un failover verdadero Es en esta parte, done usted informa al SRM que motor est utilizando para replicar sus mquinas virtuales desde el sitio de proteccin hacia el sitio de recuperacin. En este proceso, el SRA interroga la cabina para descubrir las LUNs que se est replicando y habilita al SRM del sitio de recuperacin hacer el espejo" (mirror) de sus mquinas virtuales a la cabina del sitio de recuperacin. Evidentemente, la configuracin de cada cabina de almacenamiento vara segn el proveedor. Aunque me gustara mucho ser neutro en todo momento, no me es posible validar la configuracin de cada cabina ya que sera muy costoso y llevara mucho tiempo. Sin embargo, con el tiempo espero conseguir appliance virtuales o sistemas reales de almacenamiento para documentar el proceso. Como puede ver en pantalla, las tres interfaz de usuario son diferentes para cada proveedor de SRA.

100

Vale la pena sealar que algunos SRA tienen otros requerimientos de software o de licencias, por ejemplo: Falconstor SRA actualmente exige introducir una cadena de licencia durante la instalacin EMC SRDF requiere instalar la solucin de EMC Enabler software antes de instalar el SRDF SRA EMC MirrorView SRA necesita .NET 2.0, aunque el SRA MirrorView instalar este si usted no lo tiene instalado 3Par SRA requiere instalar el Infrom CLI para Windows antes de instalar su SRA Adems, si nos fijamos en las imgenes de cada SRA que he incluido en esta gua, se puede ver que todos comparten dos cosas en comn. En primer lugar, usted debe proporcionar una direccin IP o URL para comunicarse con el array o cabina de almacenamiento, y en segundo lugar, usted debe proporcionar las credenciales de usuario para autenticarse con esta. La mayora de los SRA tendr dos campos para dos direcciones IP, que normalmente se utilizan para el 1 y 2 controlador redundantes de almacenamiento, ya sea canal de fibra o iSCSI. Los proveedores de almacenamiento llaman a estos controladores de almacenamiento de una forma diferente. As, si usted est familiarizado con NetApp, quizs el trmino "Storage Heads" es el que est acostumbrado o, si se trata de EMC Clarrion, usted este acostumbrado a usar el trmino "Storage Processor". Es evidente que para que el SRA funcione debe haber una direccin IP configurada en estos controladores de almacenamiento y debe ser accesible por el servidor SRM. Lefthand Networks SRA

101

HP StorageWorks Enterprise Virtual Array

Netapp OnTap Native Management System

IBM-DS4xxx-Native

102

Dell Equallogics PS Series SRA

EMC Celerra iSCSI Native

103

EMC MirrorView

EMC Symmetrics Native SRA

104

Configuracin de los Array Managers LeftHand Networks SRA


En este ejemplo, voy a explicarle la configuracin de Lefthand Networks SRA. Con un sistema iSCSI el servidor SRM se comunicar con un iSCSI Target en el sitio protegido para recuperar la informacin de los DataStore y LUNs. Es necesario, por tanto, configurar una direccin IP vlida para el servidor SRM o permitir el enrutamiento/ intra-VLAN si su servidor SRM y el VSA residen en diferentes redes. Este es uno de los retos al instalar el SRM y el vCenter sobre la misma instancia de Windows. Otra solucin es configurar su servidor SRM con dos tarjetas de red, una para la comunicacin general y la otra especficamente para la comunicacin con el VSA. Si no tiene comunicacin entre el SRA y el VSA, recibir este mensaje de error.

Advertencia: Confirme que puede hacer ping a su destino o iSCSI Target desde el SRA en el sito protegido antes de comenzar esta parte de la configuracin 1. Inicie sesin con el cliente Vi en el vCenter del sitio protegido 2. Haga clic en el icono Site Recovery 3. En la pestaa Summary, en el panel de configuracin de proteccin, haga clic en el Configure al lado de Array Managers Option

105

4. En el cuadro de dilogo Protection Side Array Managers, haga clic en el botn Add

5. En el cuadro de dilogo Array Manager, escriba un nombre para este gestor como Array Manager para el sitio Protegido 6. Seleccione Lefthand Network SAN / iQ como el tipo de administrado 7. Escriba la direccin IP del VSA del sitio protegido en el campo SAN/iQ Manager IP1, en mi caso este es mi sistema vsa1.rtfm-ed.co.uk con la direccin IP 172.168.3.99

106

Nota: Si slo tiene un manager en el sitio protegido (como es mi caso), escriba de nuevo el mismo nombre de host o direccin IP. Usted debe completar los dos campos, SAN/iQ Manager IP 1 y SAN/iQ Manager IP 2. 8. Introduzca el nombre de usuario y contrasea 9. Haga clic en el botn Connect Nota: Esto deber conectar el servidor SRM con el VSA Manager y mostrar el nombre del grupo de gestin creado en el VSA

Nota: Utilizando una coma como separador, se pueden especificar ms de dos SAN/iQ Managers 10. Haga clic en OK.

107

Nota: SRM comenzar a descubrir la cabina y los DataStore

Nota: En el cuadro de dilogo anterior se puede ver como el Array Manager ha descubierto mi nica LUN/Volumen creada en VSA Lefthand Networks. Con fines de prueba, he creado una nica LUN/volumen con formato VMFS donde alojare las mquinas virtuales. 11. Haga clic en Next IMPORTANTE: En la prxima etapa vamos a decir al SRA del sitio de recuperacin, cual es la direccin IP/FQDN del Array Manager para el Target iSCSI del sitio de recuperacin. Una vez ms, el SRA del sitio de recuperacin necesitar una direccin IP vlida para conectarse a su target iSCSI al igual que el servidor SRA en el sitio protegido necesita una direccin IP vlida para conectarse a su Target iSCSI. La configuracin del cuadro de dilogo Add Array Manager para el SRA del sitio de recuperacin es prcticamente el mismo.

108

Nota: A pesar de que estamos ejecutando el asistente del Array Manager desde el sitio protegido, en este momento en realidad estamos configurando el SRM del sitio de recuperacin. 12. Haga clic en OK

109

Nota: Nota que el valor de LUN cont es 1. Esto es el valor que el VSA Lefthand Networks a dado a mi volumen llamado "virtualmachines". Si creara nuevos volmenes replicados y los usara con VMware ESX, este contador incrementara en consecuencia. Para ello tendra que usar el botn Rescan Arrays que vera al final de este asistente. 13. Haga clic en Next, revise la informacin del DataStore y haga clic en Finish

110

Nota: En cualquier momento que desee, puede volver a ejecutar este asistente para aadir nuevos arrays o para volver a re-escanear el array existente para forzar descubrir nuevos LUNs/volmenes, haciendo clic en la opcin de configuracin en la consola de administracin. Nota: Recuerde que para que los datastores aparezcan, estos deben estar en uso por una o ms mquinas virtuales. Importante: Si se configuran los detalles de las direcciones IP en el sitio de proteccin as como la autentificacin, se permitir a los servidores SRM automatizar el proceso, el cual normalmente requiere la interaccin del equipo de gestin de almacenamiento. Esto se utiliza especficamente en SRM cuando un plan de recuperacin es probado. Como las HBAs de los ESX en el sitio de recuperacin son re-escaneadas, el SRA permitir de forma automtica el acceso a los LUNs/volmenes replicados para que la prueba se ejecute. Sin embargo, esta funcionalidad vara de una cabina de almacenamiento a otra. Por ejemplo con privilegios en una cabina de NetApp, permitir la creacin dinmica y destruccin de FlexClones (re-instantneas). Sin embargo, alguien del equipo de almacenamiento ha de conceder acceso al grupo de volumen para que esto tenga xito. Se podra pensar que este nivel de acceso a la capa de almacenamiento es algo ms bien poltico. Sin embargo, en mis conversaciones con VMware y con personas que fueron los primeros en probar SRM, esto no siempre ha sido el caso. De hecho, muchos administradores de los equipos de almacenamiento estaran encantados de renunciar a este control de gestin de la capa de almacenamiento, si esto significa que tendrn menos

111

solicitudes de intervencin desde los departamentos de servidores y virtualizacin. Ver muchos administradores de almacenamiento que comprensiblemente se irritan si la gente como nosotros les llama a todas horas para pedirles que lleven a cabo tareas rutinarias, como la creacin de una instantnea y la inclusin de esta a un nmero de servidores ESX. El hecho de que nosotros, como los administradores de SRM, podamos hacerlo con seguridad, automticamente y sin su ayuda, liberara muchsimo al equipo de almacenamiento, los cuales dedicaran este tiempo a otras tareas quizs ms importantes. Lamentablemente, algunas empresas, todava no lo llegan a entender este sin explicarles antes cual es la plena competencia del SRA. Si hemos molestado al equipo de almacenamiento, ha sido debido, en gran medida, a la dificultad en encontrar buenos manuales de administracin de las cabinas de los proveedores de almacenamiento. Esto ha dejado a muchos administradores de SRM y de almacenamiento luchando da y noche para encontrar los parmetros y requisitos necesarios para que el SRA funcione correctamente.

Configurar las asignaciones de Inventario


La prxima parte en la configuracin, es la configuracin de asignaciones de inventario. Esto implica la asignacin de resource pool, carpetas y redes virtuales del sitio de proteccin al sitio de recuperacin. Esto es necesario ya que tenemos dos instalaciones de vCenter que no comparten una misma base de datos en comn. Cuando su plan de recuperacin se ejecute para la prueba o para un caso real, el servidor SRM en el sitio de recuperacin tiene que saber sus preferencias acerca de cmo quiere que se levanten las maquinas virtuales que se estn replicando. A pesar de que el sitio de recuperacin tiene los archivos de las mquinas virtuales por medio de la replicacin por cabina, los "metadatos" que constituyen el inventario del vCenter no se replican. Corresponde al administrador de SRM decidir cmo se manejan estos datos del vCenter. El administrador de SRM debe ser capaz de indicar qu resource pool, redes y carpetas van a utilizar las mquinas virtuales replicadas. Este proceso de asignacin es opcional. Si lo desea, puede mapear manualmente cada mquina virtual al resource pool, carpeta y red, al crear los llamados "grupos de proteccin" (proteccin groups). El asistente para la "asignaciones de inventario ", slo acelera este proceso y le permite configurar sus preferencias por defecto. Es posible hacer esta asignacin mquina virtual por mquina virtual, sin embargo, esta es desde el punto de vista administrativo, una tarea laboriosa. Al tener que configurar manualmente cada mquina virtual a que red, carpeta y resource pool, debe utilizar en el sitio de recuperacin, se tardara mucho tiempo, incluso en un entorno con pocas mquinas virtuales. Ms adelante en este libro, veremos la asignacin de inventario manual como una forma de hacer frente a las mquinas virtuales que tienen una configuracin ms singular o complicada. En pocas palabras, vea las "asignaciones de inventario" como un mtodo de tratar con la configuracin de las mquinas virtuales como si fueran grupos, y los otros mtodos, como si estuviramos haciendo una asignacin de usuarios individuales. Es perfectamente aceptable que las "asignaciones de inventarios" tengan este icono al lado de algunos de los objetos del inventario.

112

Despus de todo, puede haber resource pools, carpetas y redes que necesitan ser incluidas en su plan de recuperacin. Por ejemplo, mquinas virtuales de prueba y desarrollo no deberan de ser replicadas, y por tanto, el inventario de objetos que se utilizan para la gestin de estas maquinas no estarn configurados. Del mismo modo, es posible que usted tenga mquinas virtuales "locales" que no necesitan ser configuradas. Un buen ejemplo podra ser que su vCenter y su instancia de SQL podran estar virtual izados. Por definicin, estas mquinas virtuales de "infraestructura" no se replican al sitio de recuperacin, porque ya tenemos duplicados estos servicios, ya que es parte de la arquitectura de SRM. Otros servicios especficos locales pueden ser los sistemas anti-virus, DNS, DHCP, Proxy, Servidores de impresin y, dependiendo de su estructura de servicios de directorio, los controladores de dominio de Active Directory. Por ltimo, es posible que mquinas virtuales con servicios de despliegue - en mi caso UDA, no necesiten ser replicados en el sitio de recuperacin, ya que no son muy crticos para el negocio. Aunque yo le sugerira que considerara la dependencia que tiene de estas mquinas virtuales auxiliares en las operaciones de su da a da. En este punto, no vamos a indicar que mquinas virtuales se van a incluir en nuestro procedimiento de recuperacin. Esto se hace en una etapa posterior, al crear en SRM los grupos de "proteccin". Nota: SRM emplea el trmino "Clculo de Recursos" (compute rezurces) para referirse a clusters de servidores ESX y a los resource pools dentro de estos clusters 1. Inicie sesin con el cliente Vi en el vCenter del sitio protegido 2. Haga clic en el icono de Site Recovery 3. En la pestaa de Summary, en el panel de configuracin de proteccin - haga clic Configure al lado de las opciones de Inventory Mappings

113

Nota: Esto slo le llevar a la pestaa de Protection Groups nodo e Inventory Mappings. La columna llamada "Recovery Site Resource" la cual contiene "None Selected" simplemente significa que no hay an ningn mapeo por defecto.

4. Haga doble clic en su preferencia de red virtual (en mi caso es el portgroup con nombre vlan11). En el subsiguiente cuadro de dilogo seleccione la red virtual en el sitio de recuperacin

Nota:

114

Cuando usted ejecuta una prueba de "plan de recuperacin", SRM mueve automticamente las mquinas virtuales replicadas a una red "burbuja, la cual las asla completamente de la red interna utilizando un vSwitch. Esto evita posibles conflictos de direccionamiento IP y NetBIOS. Trate de ver esta "red burbuja como un valor de seguridad que le permite que usted lleve a cabo planes de prueba con una garanta, para no generar as conflictos entre el sitio protegido y el sitio de recuperacin. La configuracin anterior slo se utilizan en el caso de la activacin de su plan de recuperacin real. Si yo asigno la red de "produccin" a la red "Interna los usuarios no podrn conectarse a las mquinas virtuales en el sitio de recuperacin. Nota: El tema de la red y DR puede ser ms complejo de lo que usted piensa y depende mucho de cmo haya creado la red. Cuando usted empieza a arrancar mquinas virtuales en el sitio de recuperacin, estas pueden estar en una red totalmente diferente y pueden requerir direcciones IP y DNS diferentes para permitir que los usuarios se conecten. La buena noticia es que SRM pueden controlar y automatizar este proceso. Una manera muy fcil de simplificar esto es mediante SRM y strectched VLANs, donde dos redes de dos lugares geogrficamente diferentes aparecen en la misma VLAN o subred. Sin embargo, puede que no tenga la posibilidad de implementar stretched VLANs y amenos que esta tcnica no est ya implantada, sera un cambio importante el tener que cambiar su configuracin fsica. Vale la pena dejar claro que incluso si implementa stretched VLANs, es posible que se an tenga que crear inventory mappings a causa de las diferencias de los port groups. Por ejemplo, puede haber una VLAN ID 101 en Nueva York y otra VLAN ID 101 en Chicago. Pero si el equipo administrativo en Nueva York, llama a los port groups en el switch virtual NYC-101, y el equipo administrativo en Chicago, llama a sus port groups CHIC-101, todava usted tendr que necesitar hacer el mapeo de port groups en la pestaa Inventory Mappings. Por ltimo, en la esquina superior derecha de la pestaa Inventory Mappings hay dos opciones Refresh y Remove El uso de estas dos opciones en gran medida se explican por s mismo. Nota: Una vez que usted entiende el principio de las asignaciones de inventario (inventory mappings), se convierte en una tarea muy tediosa de corregir manualmente el mapeo de los objetos en el vCenter del sitio protegido, con los objetos en el vCenter del sitio de recuperacin, como por ejemplo:

115

Como puede ver, no he configurado ninguna asignacin para mi red de prueba. Del mismo modo, no he creado ninguna relacin entre mi red de infraestructuras (vlan10, resource pool o carpeta de mquinas virtuales. Adems, en lugar de tener carpetas de mquinas virtuales llamadas Primary & Secondary en ambos sitios, voy a coger todas las mquinas virtuales del sitio de proteccin, y las volcare en una carpeta llamada "Recovery VMs" en el vCenter del sitio de recuperacin. Aunque he hecho esto en este ejemplo, en realidad yo no lo recomendara. Yo recomendara la duplicacin de la carpeta de recursos y estructura de grupos en el sitio de recuperacin, de modo que coincida exactamente con el sitio protegido. Esto ofrece un mayor control y flexibilidad, sobre todo cuando usted comienza el proceso de recuperacin o failback.

Creacin de grupos de proteccin


Los grupos de proteccin se utilizan cada vez que usted realiza una prueba de su plan de recuperacin, o cuando se invoca un DR real. Los grupos de proteccin contienen una coleccin de mquinas virtuales que harn failover desde el sitio de proteccin hasta el sitio de recuperacin. La relacin de los grupos de proteccin con volmenes VMFS, puede ser de uno a uno, es decir, un grupo de proteccin puede contener o apuntar a un volumen VMFS. Alternativamente, es posible que un grupo de proteccin pueda contener muchos volmenes VMFS. Esto puede suceder cuando los archivos de una mquina virtual se distribuyen a travs de muchos volmenes VMFS para el rendimiento del disco o, cuando por razones de optimizacin de una mquina virtual, tiene una mezcla de discos virtuales y discos RDM asignados . En algunos aspectos, los grupo de proteccin de SRM podra estar estrechamente alineados con los grupos que cree en su cabina de almacenamiento. De hecho, si usted hace esto, estara simplificando las capas de software en uso. Sin embargo, lo que realmente determina la pertenencia de un VMFS a un grupo de proteccin, es la forma en que los volmenes VMFS son utilizados por las mquinas virtuales. Una parte importante del asistente para la creacin de grupos de proteccin, es la seleccin de un destino "de posicin" o placeholder en el sitio de recuperacin se trata de un volumen VMFS en el sitio de recuperacin. Despus de que el asistente

116

ha finalizado, SRM crea el archivo .VMX y otros archivos ms pequeos que componen la mquina virtual, desde el sitio de proteccin al sitio de recuperacin, usando el "marcador de posicin" o placeholder seleccionado en el asistente. A continuacin, los archivos .VMX son pre-registrados en el servidor ESX del sitio de recuperacin. Este proceso de registro tambin asigna la mquina virtual en el resource pool por defecto y, en la carpeta y la red, tal como se establece en la seccin asignaciones de inventario. Recuerde que sus verdaderas mquinas virtuales estn en realidad siendo replicadas a un LUN/volumen en la cabina de almacenamiento del sitio de recuperacin. Puede tratar estos "marcadores" o placeholders como un mero lugar de almacenamiento temporal que se utiliza slo para completar el proceso de registro necesario de las mquinas virtuales, para que figuren en el inventario del vCenter del sitio de recuperacin. A pesar de que estamos replicando nuestras mquinas virtuales desde el sitio de proteccin al sitio de recuperacin, el archivo .VMX, contiene informacin especfica del sitio, sobre todo en trminos de creacin de redes. La VLAN y la direccin IP utilizada en el sitio de recuperacin, podran diferir sustancialmente del sitio protegido. Si utilizramos el archivo .VMX como este, en el volumen repicado, parte de su configuracin sera nula (nombre del portgroup y VLAN, por ejemplo), pero algunas de sus configuraciones no cambiaran (cantidad de CPU y memoria ). El objetivo principal de marcador de posicin de los archivos vmx, es que le ayudan a ver visualmente en el inventario del vCenter, donde residirn sus mquinas antes de ejecutar el plan de recuperacin. Esto le permite confirmar por adelantado, si sus asignaciones de inventario son correctas. Si una mquina virtual no aparece en el inventario del sitio de recuperacin, es una indicacin clara de que no est siendo protegida. Esto ofrece al operador la oportunidad de corregir los problemas que haya, antes de la prueba de un plan de recuperacin. Estas mquinas virtuales de posicin (placeholder), a veces se denominan mquinas virtuales "sombra" (shadow). Puede que de vez en cuando vea la referencia de este trmino en los mensajes de error, por ejemplo, si salen mal los planes de recuperacin vera: Image for testing or recovery cannot be produced because the shadow group is currently being tested.

SUGERENCIA: Al crear su primer grupo de proteccin, quizs le gustara tener el cliente de Vi abierto contra el vCenter del sitio de proteccin y tambin contra el vCenter del sitio de recuperacin. Esto le permitir ver, en tiempo real, acontecimientos que ocurren en ambos sistemas. 1. Inicie sesin con el cliente Vi en el vCenter del sitio protegido 2. Haga clic en el icono de Site Recovery 3. En la pestaa Summary, en el panel de Proctection Setup, haga clic en el enlace Create situado junto a las opciones de Protection Groups

117

4. En el del cuadro de dilogo Name and Descripion Create Protection Group, escriba un nombre y una descripcin para el grupo de proteccin. En mi caso estoy creando un grupo de proteccin llamado Virtual Machines Protection Group.

118

5. Al hacer clic en Next, el Grupo de Proteccin del asistente le mostrar los datastores que han sido descubiertos por el Array Manager

6. A continuacin, seleccione un DataStore para el "marcador de posicin" o placeholder de sus mquinas virtuales. Para este placeholder puede utilizar almacenamiento local si as lo desea. Tambin puede utilizar el almacenamiento remoto, pero si lo hace este debe ser un marcador de posicin independiente, el cual no participa en ningn proceso de replicacin.

119

Nota: Realmente no importa qu tipo de DataStore seleccione para el archivo .VMX placeholder. Incluso puede utilizar almacenamiento local recuerde que slo hay archivos "temporales" utilizados en el proceso del SRM. Sin embargo, almacenamiento local tal vez no sea una eleccin muy acertada. Si el servidor ESX se cae, este se pondr en modo de mantenimiento o en estado desconectado, y SRM entonces no sera capaz de acceder a los archivos de posicin durante la ejecucin de un plan de recuperacin. Sera mucho mejor utilizar una LUN/volumen de almacenamiento que este compartida entre todos los servidores ESX en el sitio de recuperacin. El tamao de esta LUN/Volumen de almacenamiento no tiene que ser grande ya que los archivos placeholder son archivos ms pequeos y no contienen los discos virtuales. SUGERENCIA: Despus de una prueba de un plan de recuperacin, el failback o la recuperacin (regresar al sitio principal) tiene una fase de limpieza manual que implica que el operador borre los archivos VMX "de posicin" o placeholder. As que podra ser til recordar, dnde se encuentran estos archivos, o crear un lugar dedicado a ellos, en lugar de mezclarlos con los archivos verdaderos de las mquinas virtuales. Con frecuencia, a las personas les resulta difcil ver la diferencia en el vCenter entre los archivos de placeholder y los archivos reales de las mquinas virtuales. Es una buena prctica el uso de carpetas y nombres de resource pool que reflejen que estos "marcadores de posicin" o placeholder de mquinas virtuales no son "reales". Sera muy til ver en las siguientes versiones de SRM, un icono especial para indicar que son archivos de mquina virtual del SRM. Nota: Despus de hacer clic en el botn Finalizar, tendrn lugar una serie de eventos. En primer lugar, en el vCenter del sitio de recuperacin, ver la

120

barra de tareas indicando que el sistema est ocupado "protegiendo" a TODAS las mquinas virtuales que residen en el DataStore, incluidos en el grupo de proteccin

Mientras que en el vCenter del sitio de recuperacin, se iniciar el proceso de registro de todas las maquinas virtuales en el lugar correcto en el inventario

Tambin notara que estas mquinas virtuales "nuevas", estn siendo colocadas en el grupo correcto de recursos y carpeta, y conectadas a la red correcta. En la pantalla siguiente vea cmo la maquina virtual ctx1, es mapeada a la red VLAN 51 en el sitio protegido, en lugar de la red VLAN11

Si navega por las ubicaciones de almacenamiento de estos "marcadores" o placeholder se podr ver que son slo archivos .VMX "ficticios". Como se puede ver en la pantalla siguiente, no hay disco virtual creado para estas mquinas virtuales "sombra".

121

En la vista de plantilla de mquinas virtuales, en el vCenter del sito de recuperacin, puede ver como las Maquinas Virtuales han sido almacenadas en una sola carpeta.

que es lo contrario a la estructura del vCenter del sitio protegido

122

Nota: SRM sabe en qu red, carpeta y resource pool tiene que poner las maquinas virtuales de recuperacin, por la configuracin por defecto de las asignaciones de inventario" que hemos especificado en la configuracin anterior. Nota: Si usted crea una plantilla y la guardarla en un volumen VMFS replicado, est tambin ser protegida. He probado esto apagando una mquina virtual y utilizando el mtodo de clonar a plantilla. Despus de ejecutar un plan de recuperacin, he podido crear una nueva mquina virtual desde la platilla replicada. Esto aparece en el inventario del vCenter

Y en el grupo de proteccin

123

y tambin en mis planes de recuperacin (que lo cubriremos en el prximo captulo)

Observe cmo las plantillas no estn encendidas cuando se ejecuta un plan de recuperacin, ya que estas no pueden ser encendidas de todos modos sin que primero se conviertan de nuevo a una mquina virtual. Advertencia: La eliminacin de los grupos de proteccin en el vCenter del sitio protegido, invierte el proceso de registro. Cuando usted elimina un grupo protegido, esto des-registra y destruye los ficheros placeholders que han sido creados en el sitio de recuperacin. Esto no afecta al ciclo de replicacin de las mquinas virtuales, el cual se rige por el software de replicacin de su cabina. Tenga mucho cuidado con la supresin de los grupos de proteccin. Esta accin puede tener consecuencias imprevistas y no deseadas si estn

124

"en uso" por un plan de recuperacin. Este problema o peligro potencial est cubierto ms adelante en este libro.

Fallos al proteger una mquina virtual


Asignaciones de inventario malos? Ocasionalmente puede encontrarse con que al crear un grupo de proteccin, el proceso falla en registrar una o ms mquinas virtuales en el sitio de recuperacin. Esto es normalmente causado por un error en el proceso "Asignaciones de Inventario". El error es marcado en el sitio protegido con un signo de exclamacin amarillo en el grupo de proteccin para las mquinas virtuales que no se registren.

Este error generalmente es causado porque, por defecto, la configuracin de la mquina virtual est fuera de las "Asignaciones de Inventario " y por lo tanto, el grupo de proteccin no sabe cmo asignar las mquinas virtuales a la carpeta, resource pool o a la red correspondiente en el sitio de recuperacin. He creado el inventario de asignaciones para la creacin de redes, de la siguiente manera:

No he asignado ninguna asignacin de inventario para vlan10. He considerado esta red como una red local que contiene mquinas virtuales locales que no requieren proteccin. Accidentalmente, la mquina virtual llamada fs-1 fue parcheada en esta red, y por lo tanto, no se configuro correctamente en el plan de recuperacin. En el mundo real, esto podra haber sido un descuido, pero en mi caso el problema no fue mi mquina virtual, sino la mala configuracin de las asignaciones de inventario. La mquina virtual no entra dentro del mbito de asignaciones por defecto Otra hiptesis podra ser que el mapa de inventario se destina a manejar la configuracin predeterminada cuando la regla es siempre X. Podra haber un nmero de mquinas virtuales dentro de un grupo de proteccin que tiene sus propios ajustes o configuracin, despus de todo, una talla nica no sirve para todo. SRM puede permitir excepciones a dichas normas, cuando una mquina virtual tiene su propia configuracin particular que se queda fuera del grupo, al igual que con los usuarios y grupos.

125

Si usted tiene este tipo de desajuste en la asignacin de inventario, ser usted quien decida el curso correcto de la accin para solucionarlo. Slo usted puede decidir si la mquina virtual o la asignacin de inventario tienen la culpa. Por lo tanto, puede resolver esto de diferentes maneras: Actualice la asignacin de inventario, a fin de incluir los objetos que inicialmente ha pasado por alto Corrija la configuracin de la mquina virtual para que este dentro de la configuracin por defecto de la asignacin de inventario Personalice la mquina virtual con su propio y nica asignacin de inventario. Esto no significa que usted puede tener normas (Asignacin de Inventario) y excepciones a la regla (ajustes personalizados en maquinas virtuales). La configuracin de la mquina virtual previene la proteccin SRM no puede proteger a una mquina virtual si no pueden acceder a los dispositivos de esa mquina virtual, si no estn disponibles en el sitio de recuperacin. Un buen ejemplo de ello son los disquetes o las imgenes ISO No es un error, es un chico malo malo! Si usted puede perdonar a Monty Python en "Meaning of Life", puede empezar con el confuso signo de exclamacin amarillo sobre un grupo de proteccin. Puede ser una indicacin de que una nueva mquina virtual se ha creado y est cubierta por un grupo de proteccin. Como he dicho antes, simplemente creando una nueva mquina virtual en una LUN/volumen que se est replicando, no significa automticamente que est este protegida e inscrita en su plan de recuperacin. Voy a cubrir esto con ms detalle cuando examinemos cmo SRM interacta con un entorno de produccin que est en constante cambio y evolucin. Espero que con estos "errores" pueda empezar a ver el gran beneficio que ofrece la asignacin de inventario. Recuerde que el mapa de inventario es opcional y si usted opta por no configurar esto en SRM al crear un grupo de proteccin, toda mquina virtual que no pueda ser registrada en el sito de recuperacin, fallara. Esto creara decenas o cientos de mquinas virtuales con el signo de exclamacin amarillo y cada una tendra que ser re-mapeada a mano a una red, carpeta y resource pool. Y por Fin El ltimo tipo de error tiene este aspecto en un grupo de proteccin

Usted se dar cuenta que las mquinas virtuales no se enumeran debajo de las mquinas virtuales en la pestaa de grupo de proteccin. Esto puede ocurrir si; los servidores ESX en el sitio de proteccin han perdido todo contacto con los

126

volmenes VMFS cubiertos por el grupo de proteccin; el volumen VMFS ha sido destruido o que todas las maquinas virtuales han sido trasladadas a otro DataStore no cubierto por la replicacin o por un grupo de proteccin de SRM.

Conclusin
Como usted ha visto, una de las mayores dificultades con SRM en el perodo posterior a las etapas de configuracin, es la comunicacin de red. No slo su vCenter/servidor SRM deben ser capaces de comunicarse unos con otros tanto en el sitio protegido como en el sitio de recuperacin, sino que tambin el servidor SRM debe ser capaz de comunicarse con su Array Manager. En el mundo real, esto ser un reto que slo puede ser abordado por sofisticadas rutas de enrutamiento IP, comunicacin intra-VLAN o simplemente mediante la configuracin de su servidor SRM con dos tarjetas de red para hablar con ambas redes. Tal vez vale la pena decir que la comunicacin que permitimos entre el SRM y la capa de almacenamiento, a travs del SRA del vendedor, podra ser problemtica para el equipo de almacenamiento". Y es que, a travs del Cliente Vi, estamos efectivamente gestionando la cabina de almacenamiento. Histricamente, esta ha sido una tarea puramente manual hecha por el equipo de almacenamiento" (si es que tiene uno), y pueden reaccionar negativamente al nivel de derechos que el SRM/SRA necesita tener para que funcione, en el marco de una instalacin por defecto. Esto tambin podra tener repercusiones negativas para los procedimientos de la gestin de cambios internos, utilizados para manejar las demandas de replicacin de almacenamiento en la empresa u organizacin en el que usted trabaje. En mi investigacin, he encontrado una gran diferencia en las actitudes de las empresas hacia este tema. Algunas empresas lo ven como obstculos mayores. En otras empresas, pensaron que es un obstculo pero que se puede superar siempre y cuando los administradores senior de la capa de almacenamiento acepten completamente la aplicacin de SRM, en otras palabras, el equipo de almacenamiento se ver obligado a aceptar este cambio. En el extremo opuesto, las personas que tratan da a da con la administracin del almacenamiento estn muy agradecidas de reducir su carga de trabajo y sealaron que cuantas menos personas participen en el proceso de toma de decisiones, ms rpido nuestras mquinas virtuales estarn online. La virtualizacin es una tecnologa muy poltica y personalmente no veo ni creo que la automatizacin de sus procedimientos como DR (Desaster Recovery) sea menos poltica. Estamos hablando de una de las decisiones ms grandes que una empresa puede tomar con su TI, la invocacin de su plan de DR. Las consecuencias de que este plan falle es quizs ms polticamente importante que un proyecto de virtualizacin vaya mal. Creo que es perfectamente posible, si usted trabaja en estrecha colaboracin con su equipo de almacenamiento y su proveedor de almacenamiento, modificar los scripts del SRA para incluir la posibilidad de presentar manualmente el almacenamiento a los servidores ESX del sitio de recuperacin, eludiendo as la poltica que esto introduce. Por supuesto, es totalmente imposible que yo pueda configurar todos y cada uno de los arrays de almacenamiento de los proveedor para mostrarle cmo se integran con VMware SRM, pero al menos espero haberte dado una idea de lo que ocurre en el nivel de almacenamiento con estas tecnologas. Lo que espero es que ahora tenga los conocimientos suficientes para comunicar sus necesidades al equipo de almacenamiento y tambin que comprenda mejor lo que

127

se est haciendo en la capa de almacenamiento, a todos los niveles, para que funcione. En el mundo real tendemos a vivir en casillas. Yo soy el especialista en servidores, yo soy el especialista de almacenamiento, yo soy el especialista de red, y con bastante frecuencia vivimos en la ignorancia de lo que cada especialista est haciendo. La ignorancia y el DR hacen una mezcla peligrosa. Por ltimo, espero que pueda ver la importancia que el inventario de asignaciones y los grupos de proteccin tienen en el proceso de recuperacin. Sin estos, un plan de recuperacin no sabr dnde poner sus mquinas virtuales en vCenter (carpeta, resource pool y red) y en segundo lugar tampoco sabr en que LUN/volumen podr encontrar los archivos de las mquinas virtuales. En el prximo captulo vamos a ver la creacin y ensayo de planes de recuperacin. El captulo 5 le pondr en marcha y en funcionando y en el captulo 6, trataremos los planes de recuperacin a un nivel funcional. No se preocupe, cada vez est ms cerca de presionar el botn que dice "prueba mi plan de recuperacin"!

128

129

Captulo 5: Configuracin del sitio de Recuperacin

130

Estamos muy cerca de ser capaces de ejecutar nuestra primera prueba bsica de plan de contingencias. Estoy seguro de que est deseando de presionar el botn que pone a prueba la tolerancia a fallos (failover). Y quiero llegar a esa fase lo ms rpidamente posible, para que pueda tener una idea clara de los componentes que conforman la lista de SRM. Me gustara darle primero una idea general, antes de perderte con los detalles. Hasta el momento, toda nuestra atencin ha estado en la configuracin del vCenter del sitio de proteccin. Ahora vamos a cambiar el rumbo, para ver la configuracin del vCetner de sitio de recuperacin. La pieza fundamental es la creacin de un plan de recuperacin. Es probable que usted tenga mltiples planes de recuperacin sobre la base de la posibilidad de diferentes desastres. Si usted pierde la totalidad de un sitio, el plan de recuperacin sera muy diferente de un plan de recuperacin invocado solo por la prdida de una cabina de almacenamiento o por la prdida de un conjunto de aplicaciones.

Creacin de un plan de recuperacin completo de sitio bsico


Nuestro primer plan va a incluir cada mquina virtual en el mbito de nuestro grupo de proteccin, con poca o ninguna modificacin. Una vez ms, volveremos a crear un plan personalizado de recuperacin en el prximo captulo. Este es mi intento de llegar a la parte de prueba del producto tan pronto como sea posible, sin abrumarle demasiado con las personalizaciones de las mquinas virtuales. El plan de recuperacin contiene muchas opciones y configuraciones: El grupo de proteccin que abarca el plan La demora entre el encendido de una mquina virtual antes de otra basado en el servicio Heartbeat de las Herramientas VMware o un valor fijo en segundos Control de la configuracin de la red durante las pruebas de los planes Suspender MV (maquinas virtuales) "locales" en el sitio de recuperacin que no son criticas para el negocio, para liberar as ms recursos para MV 1. Inicie sesin con el cliente Vi en el vCenter del sitio de recuperacin 2. Haga clic en el icono Site Recovery 3. En la pestaa Summary, en el panel de Recovery Setup, haga clic en el enlace Create situado junto a la opcin de Recovery Plans

4. En el cuadro de dilogo Create Recovery Plan Recovery Plan Information escriba un nombre descriptivo y significativo y una descripcin para el plan, como por ejemplo Complete Loss of Site Plan Simple Test

131

5. En el cuadro de dilogo Create Recovery Plan Protection Group, seleccione el grupo de proteccin, el cual est cubierto por el Plan de Recuperacin

132

6. Haga clic en Next, y en el cuadro de dilogo Create Recovery Plan Response Times, seleccione un valor en tiempo que piense es apropiado para encender las maquinas virtuales de recuperacin

Nota: Estos dos valores de tiempo se unen. Por lo tanto, SRM esperara hasta que oiga la seal hearbeat desde las herramientas VMware (VMware Tools) y despus aade 30 segundos de espera. El segundo valor 300 es el tiempo total que esperar por una respuesta de una mquina virtual antes de arrancar la prxima mquina virtual. Si SRM no recibe un hearbeat de las herramientas VMware, marcara esa mquina virtual como un problema en el plan, y pasara a la siguiente mquina virtual 7. Siguiente, en el cuadro de dilogo Create Recovery Plan Configure Test Networks, establezca las opciones para manejar la creacin de redes cuando se ejecute una prueba.

133

Nota: La opcin llamada "auto" crea un switch "interno" (anteriormente conocido como vmnet ESX en 2.xx) llamado "burbuja". Esto asegura que no tendremos conflictos de IP o NetBIOS entre las mquinas virtuales del sitio protegido y el sitio de recuperacin. Usted puede sobre-escribir esta configuracin y mapear un vSwitch de su propia eleccin, pero tenga cuidado con la posibilidad de crear conflictos con las mquinas virtuales en produccin. Nota importante sobre Auto: A simple vista, la funcin de auto suena como una buena idea. Evitara que ocurran conflictos basados en IP o nombre NetBIOS. Sin embargo, puede hacer parar la comunicacin de dos mquinas virtuales en la prueba. He aqu un ejemplo. Digamos que tiene cuatro servidores ESX en un clster DRS. Cuando las mquinas virtuales son encendidas, no tienen control sobre donde se ejecutarn esas maquinas virtuales. Estas automticamente se conectaran a un switch interno, lo que significa, que mientras las mquinas virtuales conectadas e ese vSwitch interno sern capaces de comunicarse entre s , estas no podr hablar con cualquier otra mquina virtual en cualquier otro servidor ESX del clster. Las consecuencias de esto son claras. A pesar de nuestra capacidad para priorizar el encendido de las mquinas virtuales para resolver cualquier dependencia de servicio, esos servicios de red fallaran con el cumplimiento de las dependencias y, por lo tanto, las MV no se iniciaran correctamente. Actualmente no hay arreglo para este problema, excepto si se usa una estructura VLAN para aislar las mquinas virtuales de la red general. El problema puede arreglarse en futuras versiones con un concepto llamado "Cross-Host Network Fencing". Esto permitir la comunicacin cruzada entre vSwitches de un servidor ESX a otro. El concepto de network fencing

134

apareci primero hace algn tiempo en el producto de VMware Lab Manager, donde nos enfrentamos a un desafo similar a sus entornos de prueba mltiples copias de mquinas virtuales corriendo en la misma red fsica. En esencia, network fencing es un despliegue muy sofisticado y automatizado de Network Address Translation (NAT) con DHCP. Esto permite que todas las mquinas virtuales puedan preservar la configuracin IP original, y que an se comuniquen unos con otros. Incluso con esta opcin, an habra algunas cuestiones por resolver, por ejemplo, algunos protocolos como DCOM no funcionan con network fencing. Otra alternativa al "Cross-Host Network Fencing" podra ser la aplicacin de pVLAN o VLANs privadas. Desafortunadamente, las pVLANs estn fuera del alcance de este libro. Si desea obtener ms informacin, en este link puede encontrar ms informacin sobre cmo funcionan: Private VLANS - A look at Cisco's implementation of Private Virtual LANs (PVLANs) http://www.cramsession.com/articles/get-article.asp?aid=12 Por el momento, la funcin "auto" en el asistente del plan de Recuperacin, es la mejor opcin a considerar como un "valor de seguridad", el cual le permite probar un plan sin temor de generar un conflicto en el IP o nombre NetBIOS en las mquinas virtuales. Nota: En ocasiones, he podido ver que el campo "DataCenter" est en blanco. Esto parece ser un error de diseo el cual ya ha sido arreglado en la versin 1.0,1 de SRM. 8. Por ltimo, usted puede suspender la MV en el sitio de recuperacin para liberar recursos de CPU y memoria en el cuadro de dilogo Create Recovery Plan Suspend Local Virtual Machines. En mi caso, las MV bajo Test & Dev se suspendern

135

9. Haga clic en Finish Nota: Al igual que con los grupos de proteccin, los planes de recuperacin puede ser mucho ms sofisticado que el plan que acabo de crear. Volver con los planes de recuperacin en el captulo 8.

Pruebas de configuracin de almacenamiento en el sitio de recuperacin


Ahora s que estoy seguro que estar deseando de presionar el botn verde que dice "SRM Test".

Pero antes de hacerlo, si desea que sus pruebas funcionen correctamente, vale la pena confirmar que los servidores ESX, en el sitio de recuperacin, pueden acceder a la cabina de almacenamiento del sitio de recuperacin. Anteriormente, cuando estuvimos configurando el sitio de produccin, nos centramos en asegurarnos que los servidores ESX del sitio produccin tenan acceso a los volmenes VMFS. Las mismas consideraciones tambin deben ser tomadas en cuenta para el sitio de recuperacin . Podra ser una buena prctica asegurarse de que los servidores ESX, en el sitio de recuperacin, tienen visibilidad de la cabina, especialmente si usted est utilizando una cabina iSCSI, donde una post-configuracin de los servidores ESX es necesaria para permitir el acceso de estos a la cabina de almacenamiento. Usted incluso puede no ser capaz de permitir manualmente a los servidores ESX, estar en el sitio de recuperacin durante la ejecucin del plan de recuperacin. Por ejemplo, con el

136

SRA de Lefthand Networks se crear automticamente la lista de volme e enes y grupos de autenticacin requ ueridos para presentar la ltima instantnea. El VSA Lefthand Networks sabe cm hacerlo, ya que es uno de sus principales funciones y mo porque le hemos dado la dire eccin IP y las credenciales de usuario duran la nte configuracin del Array Mana ager en sitio protegido. Esto puede no ser el caso con otros sistemas de gestin de almacenamiento de otros proveedores. Us e sted puede necesitar crear grupos de gestin en la cabina de almacenamiento y per rmitir s acceso a los servidores ESX para que SRM presente las LUNs/Volmenes replicadas a los servidores ESX. e Este nivel de automatizacin vara de una cabina de almacenamiento de un lo, proveedor a otro. Por ejempl con su cabina de almacenamiento usted puede necesitar usar "enmascaramiento LUN" (LUN masking), para conceder a los ecuperacin acceso al grupo de almacenamiento servidores ESX del sitio de re (tambin conocido como volu umen group, contingency group, consistency group, y recovery group), que contien la rplica o instantnea. Por eso vale la pena leer el ne archivo readme que mucha veces viene con el SRA para confirma su as funcionalidad. Adems, much proveedores de almacenamiento tienen tan buen hos rendimiento de E/S, que crea instantneas sobre la marcha para la pru an ueba y presentan la instantnea a lo servidores ESX en el sitio de recuperacin Al final de os n. la prueba, normalmente se e elimina esta instantnea temporal, como es el caso de NetApp y su tecnologa FlexC Clone. A continuacin se muestra un diagram que ma muestra lo que ocurre en la c capa de almacenamiento cuando ejecutamo una os prueba de un plan de recupe eracin.

o es Lo principal aqu es que todo lo que se necesita configurar en la cabina e que los servidores ESX, en el sitio de recuperacin, tienen que tener acceso a lo grupos de e os almacenamiento que incluyen las LUNs replicadas. Cuando la prueba se ejecuta, el enamiento enviar una instruccin a la cabin de na SRA del vendedor del almace almacenamiento para crear u una instantnea sobre la marcha. Asimismo el SRA se encargara de presentar la ins stantnea de la cabina a los servidores ESX (esto se indica en el diagrama con un lnea). Esto significa que cuando las prueb se na bas ejecutan, su sistema de prod duccin est todava replicando los cambios al sitio de recuperacin. En definitiva, la ejecucin de las pruebas es un proceso discreto y no perjudica los patrones habitu uales de la replicacin que ha configurado, p porque a los servidores ESX, en el sitio de recuperacin, se les presenta una instantnea de la e rplica de volumen marcada como read-write (lectura y escritura), mientras que el

137

volumen replicado es marcado como read-only (slo lectura) y todava sigue recibiendo bloques de actualizaciones desde la cabina de almacenamiento del sitio protegido. Nota: El VSA Lefthand Networks funciona con un programa de instantneas y no crea instantneas sobre la marcha. En lugar de esto, presenta a los servidores ESX, del sitio de recuperacin, la ltima instantnea creada en el ciclo. Como he venido utilizando el VSA de Lefthand Networks a lo largo de este libro, voy a usar este como un ejemplo para la concesin de acceso a la LUN de prueba de la cabina, antes de proceder a la ejecucin de una prueba. Esto es simplemente una precaucin para confirmar que hemos configurado correctamente los servidores ESX para que se comuniquen con la cabina de almacenamiento. No es un requisito. Crear un volumen de prueba Antes de dar a nuestros servidores ESX, en el sitio de recuperacin, acceso a mis volmenes replicados, quiero confirmar que se pueden comunicar con mi segundo VSA. Para ello voy a crear una LUN en blanco y darles acceso. Una vez terminado, los servidores ESX vern el volumen de prueba. Despus modificare la lista de volumen y les conceder acceso a una de las instantneas. 1. 2. 3. 4. Abra el Lefthand Networks Centralized Management Console Seleccione el Recovery Management Group e inicie sesin Expanda Recovery_Cluster y Volumes Haga clic en Volmenes y elija New Volumen

5. En el cuadro de dilogo New Volume, escriba un nombre como TestVolume 6. Escriba en un tamao de volumen asegurndose que es ms de 2 GB de tamao

138

Nota: A pesar de que no vamos a formatear esta LUN, ESX no puede formatear un volumen que es inferior a los 2GB de tamao 7. Haga clic en OK Creando una lista de Volumen 1. 2. 3. 4. Seleccione el RecoveryManagementGroup En la pestaa de la parte derecha elija la pestaa Volumen List Haga clic en el Volume List Task y seleccione New Volume List Escriba un nombre para la lista de volumen como por ejemplo:

TestVolume@recovery_location 5. Y continuacin haga clic en el botn Add, seleccione el volumen TestVolume y asegrese que el nivel de permisos es Read/Write Access

139

6. Haga clic en OK Creacin de grupos de autenticacin y ajuste del IQN Los grupos de autenticacin son objetos en Lefthand Networks que contienen los parmetros que permiten a un servidor ESX el acceso a la lista de volumen. Deben de contener un valor vlido IQN y, opcionalmente, la configuracin de la autenticacin CHAP. 1. El RecoveryManagementGroup 2. En las pestaas de la parte derecha, elija la pestaa Authentication Groups 3. Haga click en Authentication Group Task, y New Authentication Group 4. Establezca un nombre descriptivo para el Authentication Group como: esx3.rtfm-ed.co.uk 5. Seleccione desde la lista desplegable de Volume List, el volumen de la lista que ha creado anteriormente, en mi caso TestVolume@recovery_location 6. Bajo "Authenticacin", haga clic dentro del Initiator Node Name, y escriba su IQN como iqn.2001-09.uk.co.rtfm-ed: esx3

140

7. Haga clic en OK Nota: Repita este mismo proceso para los otros servidores en su sitio de recuperacin que necesiten tener acceso al mismo volumen/LUN. Por ahora, esto completa la configuracin del VSA. Lo nico que queda es configurar los servidores ESX, en el sitio de recuperacin, con el VSA. En realidad, nuestros servidores ESX en el sitio de recuperacin no tienen acceso al VSA. Configurar el software iSCSI en ESX Si usted tiene un adaptador hardware iSCSI dedicado, puede configurar su IP y IQN directamente en la tarjeta. La gran ventaja de esto es que si usted re-instala su servidor ESX, los valores iSCSI permanecen en la tarjeta. A falta de soporte de un adaptador hardware iSCSI en concreto, usted puede utilizar el propio adaptador software iSCSI del servidor ESX. Las siguientes instrucciones explican cmo configurarlo para que hable con el VSA. Recuerde que antes de habilitar el iniciador/adaptador software iSCSI en el servidor ESX, tendr que crear un puerto VMkernel y Service Console con la configuracin IP correcta para comunicarse con el VSA. La razn por la que necesita un puerto de

141

Service Console, es que, mientras la principal E/S es dirigida por el puerto VMkernel y su pila de configuracin IP, la parte del descubrimiento de volmenes/LUN (SendTargets) y autenticacin CHAP se hace a travs del puerto de Service Console. Por lo tanto el VMkernel y el Service Console necesitan tener acceso. Esto no aplica para el caso de ESX3i, donde slo un puerto VMkernel es necesario. El siguiente diagrama muestra la configuracin de mi esx1 y esx2. Observe que el vSwitch tiene dos tarjetas para la tolerancia a fallos.

Antes de proceder a la configuracin del iniciador/adaptador software de VMware, confirme que puede comunicarse con el VSA mediante una simple prueba de ping. Habilitar el iniciador iSCSI 1. Seleccione el servidor ESX, y vaya a la pestaa Configuration 2. Seleccione Security Profile, en la pestaa de Software 3. Haga clic en Properties ... 4. En el cuadro de dilogo abra el puerto TCP (3260) para el Software de cliente iSCSI

142

5. Despus haga clic en Storage Adapter y seleccione iSCSI Software adaptador 6. Seleccione Properties ... 7. En el cuadro de dilogo haga clic en el botn Configure 8. Habilite la opcin bajo status, como se muestra a continuacin

Nota: Esto puede llevar algn tiempo. Sea paciente. Usted no podr establecer un IQN hasta que haga clic en OK. VMware intentar ayudarle mediante el establecimiento de un IQN por defecto. 9. Haga clic en el botn Configure de nuevo, cambie el IQN auto-generado por uno con sus propias normas, como por ejemplo:

Nota: Despus de hacer clic en OK, esta vez un cuadro de dilogo le indicara que debe reiniciar el host ESX

143

Aplazaremos el reinicio hasta que terminemos completamente 10. A continuacin, seleccione la pestaa Dynamic Discovery y haga clic en el botn Add 11. Escriba la direccin IP del VSA en su Recovery_Mangement_Group. En mi caso es 172.168.3.98

Nota: Static discovery es slo compatible con los iniciadores hardware. La autenticacin CHAP es opcional y no la he configurado en este libro. 12. Haga clic en OK Nota: Esto puede llevar algn tiempo tambin. 13. A continuacin, reinicie el servidor ESX Nota: Si no reinicia el servidor ESX, ver una advertencia en la pestaa Summary del servidor ESX.

144

Nota: Despus del reinicio, usted debera ser capaz de ver que el servidor ESX puede ver el pequeo volumen TestVolume creado anteriormente. Si no es as, debe revisar y solucionar los problemas de su configuracin hasta que pueda ver el volumen. La pantalla siguiente del servidor ESX y de la consola de gestin del VSA muestran que la conexin tuvo xito.

Descripcin: Primer Plan de Recuperacin de prueba


Si todo transcurre segn lo planeado, usted debe ser capaz de ejecutar este plan de recuperacin de base que hemos creado y ver que las maquinas virtuales en el sitio recuperacin se han arrancado. Un gran nmero de eventos ocurren en este punto. Si tiene algn tipo de software que graba los resultados de la pantalla, como HyperCam o Camtasia, puede que incluso quiera grabar los eventos de modo que pueda reproducirlos.

145

Si desea ver un vdeo de la prueba puede ver este: http://www.josemariagonzalez.es/srm.html Qu entendemos por "prueba"? Antes de que realmente "probemos" nuestro plan de recuperacin, creo que debemos discutir lo que constituye realmente una prueba de su plan DR. En muchos aspectos, el botn de "prueba" en SRM est probando que el software SRM funciona y que su SRM Plan de Recuperacin funciona como se esperaba. Para muchas organizaciones, una verdadera prueba sera una prueba completa del plan de recuperacin, lo que significa, literalmente presionar el botn rojo y hacer un failover del sitio protegido al sitio de recuperacin. Piense en esto de esta forma. Si usted tiene un sistema de SAI (sistema alimentacin ininterrumpida) - UPS en Ingles - instalado en algunos de los servidores, podra hacer todo tipo de pruebas de software del sistema de gestin de energa, pero no sabr realmente si el sistema de SAI funciona como se espera de l hasta que retire el cable de alimentacin del servidor. Con lo que si tenemos en cuenta esta posibilidad, no es inslito que las grandes empresas ejecuten planes de DR completos hasta dos veces al ao. Esto le permite identificar fallos en el plan para actualizar estos y, en consecuencia, mantener tambin al equipo encargado de controlar el plan DR al da con los procedimientos y acontecimientos inesperados que puedan aparecer y, que de hecho as ocurre. En resumen, haciendo clic en el botn de prueba de SRM, no prueba ni garantiza que las funciones de negocio de TI seguirn funcionando despus de un desastre. Qu sucede durante una prueba del plan de recuperacin? Hay un nmero significativo de cambios que tienen lugar en el sitio de recuperacin cuando se ejecuta una prueba. Esto es, a vista de pjaro, un resumen del proceso La prueba comienza Las HBAs de los ESX hacen un re-escaneo para que puedan ver el almacenamiento replicado Replica las MV registradas SRM pone en modo suspensin las MV marcadas como no necesarias Antes de que las MV son arrancadas, un switch virtual interno es creado para evitar conflictos de IP y NetBIOS Una vez que todas las MV estn arrancadas, la prueba se pausa El administrador de SRM puede revisar las conclusiones del resultado de la prueba El Operador hace clic en el mensaje Continue para seguir con el ensayo del plan de recuperacin Apaga y limpia las MV del sitio de recuperacin Reanuda las mquinas virtuales suspendidas Los ESX re-escanean de nuevo el almacenamiento para eliminar las referencias a las instantneas presentadas durante la prueba Ahora el proceso con ms detalle El servidor ESX ejecuta el proceso "Prepare Storage for Test" que implica ESX HBAs (Fibre-Channel, iSCSI, iSCSI software) son reescaneadas El ESX descubre el volumen VMFS que contiene las MV replicadas desde el sitio protegido al sito de recuperacin Los servidores ESX hacen un refresh para ver los volmenes VMFS

146

El volumen VMFS replicado del ESX es re-escrito con una firma (resignatured) y se le asignar un nombre de volumen como "snapnnnnnnn-virtualmachines" donde virtualmachines, en mi caso, es el nombre original de volumen VMFS. A continuacin, el nombre original VMFS es restaurado.

Antes ...

Despus

147

Nota: Este cambio de nombre de volmenes VMFS ocurra por defecto en la versin Beta y versiones Release Candidate del SRM. Sin embargo, con la nueva versin esto ha cambiado. Ya no se cambia el nombre del volumen VMFS por defecto. Esto probablemente se ha cambiado para poner fin a un error que describ anteriormente en este captulo. Si desea volver a habilitar el cambio del nombre de los volmenes VMFS, puede hacerlo editando el archivo XML de configuracin de VMware SRM en el sitio de recuperacin. Busque en el directorio C:\Program Files\Site Recovery Manager\Config el archivo vmware-dr.xml. Modifique la lnea: <fixRecoveredDatastoreNames>false</ fixRecoveredDatastoreNames> a <fixRecoveredDatastoreNames>true</ fixRecoveredDatastoreNames> Para permitir el acceso a las LUN/Volmenes, el SRA automticamente permite el acceso a las LUNs/Volmenes replicadas a los servidores ESX del sitio de recuperacin. En el caso del VSA Lefthand Networks, este crea dos nuevos grupos de autenticacin en el grupo de gestin de la recuperacin, en este caso, llamados SRM_AG_1, y SRM_AG2 para cada uno de mis dos servidores ESX.

148

Registration & Unregistered de las mquinas virtuales Las MVs son de-registradas del inventario del vCenter Las MVs replicadas son registradas en el inventario Las MVs son configuradas

Las mquinas virtuales marcadas para la suspensin, son suspendidas

149

Las mquinas virtuales son encendidas (Power on) Los servidores ESX crean un vSwitch llamado testBubble-1 vswitch El vswitch prueba tiene un portgroup llamado testBubble-1 group Las mquinas virtuales son re-configuradas para utilizar el testBubble group

Advertencia: Ocasionalmente, cuando la prueba se cuelga o falla por alguna razn, he visto que la fase de limpieza tambin falla. Este error falla

150

posteriormente al quitar el vSwitch y puerto grupo. Es recomendable eliminarlos manualmente, una vez que la prueba haya terminado. Si se deja, puede crear un mensaje de error la prxima vez que el Plan de Recuperacin se pruebe. Siga el progreso de su plan Al seleccionar el plan y despus Recovery Steps, usted puede ver el progreso del plan Los errores se marca en rojo Los xitos se marcan en verde Los procesos activos estn marcados en rojo con un valor porcentual (%) de lo que se ha completado

Practica: Primer Plan de Recuperacin de prueba


1. Inicie sesin con el cliente Vi en el vCenter del sitio de recuperacin 2. Haga clic en el icono Site Recovery 3. Abra el icono Recovery Plans 4. Seleccione su plan, en mi caso se llama Complete Loss of Site Plan Simple Test

151

5. Haga click en Test Recovery Plan ADVERTENCIA: No haga clic en Run Recovery Plan. Esto invocara un plan DR completo. 6. Confirme la advertencia del cuadro de dilogo

Nota: En este punto aparece un cuadro de dilogo

y el icono de plan de recuperacin cambiara, lo que indica que un plan de recuperacin est en proceso.

Adems, en la barra de tareas ver que los cambios ocurren

Una vez que todos las MVs estn encendidas, el proceso se detendr en el 54% aproximadamente, y el icono Recovery Plan cambiar a un "icono de Informacin"

Este icono por lo general indica que un evento ha tenido lugar. Los mensajes se pueden ver en la pestaa de Recovery Step de un Plan de Recuperacin. La pestaa de Recovery Steps tambin le permite ver el proceso que se describe en detalle al principio de esta seccin

152

Haga clic en la opcin Continue, cuando usted lo desee

Controlando & Solucin de problemas en planes de recuperacin


Pausar, reanudar y detener los planes Usted puede controlar manualmente el progreso de la prueba, con los iconos de la barra de botones.

Si decide interrumpir o detener la prueba de un Plan de Recuperacin, el icono cambia en consecuencia

Una prueba puede ser cancelada por SRM si detecta un error grave como la incapacidad para acceder a la LUN/ instantnea replicada o si SRM cree que otra prueba est en marcha o se ha colgado. La pantalla de abajo muestra esta situacin:

Nota:

153

Este error ocurre, a m me pasa nueve de cada diez veces, al parecer por un problema con el software de la pila iSCSI en el servidor ESX. He descubierto que habilitando y deshabilitando el software iSCSI, seguido por un re-escaneado de la HBA puede arreglar este problema: esxcfg-swiscsi d esxcfg-swiscsi e esxcfg-rescan vmhba32 Advertencia: La cancelacin de la prueba manualmente, tendr consecuencias si no se permitir que el sistema complete la operacin. Puede dejar SRM en un estado de pendiente con lo que creer que la prueba an en marcha, cuando en realidad se ha cancelado. Error: Fase de limpieza del plan La fase de limpieza y restablecimiento del plan de prueba no siempre para automticamente el acceso a las LUN/Volmenes replicados. Mi experiencia con el uso de SRM, es que no es inusual ver las LUN/volumen replicados en el datastores del servidor ESX despus que una prueba ha terminado. Por supuesto, lo que puede suceder es que entre una prueba y otra se cree una nueva instantnea. Por defecto, la mayora de los SRAs siempre utilizan por defecto las instantneas ms recientes. Sin embargo, algunos SRAs no deniegan el acceso a la instantnea despus de que la prueba ha terminado. Esto puede conducir a una situacin en la que el volumen VMFS sigue siendo visible para el ESX despus de que la prueba se ha completado. Pase lo que pase, por defecto, SRM siempre prefiere utilizar la ltima instantnea. Esto puede causar una alerta si usted intenta ejecutar el plan de prueba varias veces. Tambin la alerta es causada por un segundo intento de cambio de nombre del volumen y resignature. El resignature se llevara a cabo pero el cambio de nombre fallara porque puede existir un volumen VMFS con el mismo nombre de una prueba de plan anterior. Se debera de hacer un resignature de AMBOS volmenes y cambiar el nombre del ms reciente. Nota: Este error slo puede ocurrir si habilita el proceso de cambio de nombre del DataStore en el archivo vmware-dr.xml, como he indicado anteriormente en este captulo. Esta imagen muestra el mensaje de error:

y esta pantalla, de la vista de datastores en el ESX, muestra el efecto

154

Si esto sucede, las mquinas virtuales en el sitio de recuperacin, apuntaran al volumen VMFS el cual tiene el nombre snap-nnnnnnn-virtualmachines que es la instantnea ms reciente. En este caso, la mquina virtual llamada FS-1 esta "apuntando" al volumen de la instantnea, en lugar del volumen virtualmachines ms antiguo que se cre en la prueba anterior. Cuando se complete la segunda prueba, usted encontrara que no slo tienen el nombre de la instantnea ms antigua, sino que tambin la segunda presentacin de la instantnea ha fallado al ser renombrada.

La causa real de esto es bastante difcil de explicar, ya que depende del momento en que el plan de prueba se ha ejecutado y del ciclo de replicacin adoptada por la cabina de almacenamiento. El error se produce si SRM falla manualmente a hacer un resignature de ambos volmenes. Es fcil de solucionar este problema: cambie el nombre de su volumen VMFS antiguo a algo como "test1-virtualmachines". Esto debera permitir que la instantnea adicional se presente sin la molestia de cambiar el nombre. Error: Perdida de la configuracin del grupo de proteccin De vez en cuando, he visto que los planes de recuperacin pierden la conciencia de la configuracin del almacenamiento. Normalmente esto es causado porque un

155

administrador de SRM borra el grupo de proteccin en el sitio proteccin. El plan de recuperacin se convertir en "orphaned" de la configuracin de almacenamiento en el otro lugar y no sabr cmo ponerse en contacto con la cabina de almacenamiento para solicitar el acceso a los Volmenes/LUNS replicados. Lo gracioso de esto es que el Recovery Steps marca como "xito" el resultado, pero las mquinas virtuales en el sitio de recuperacin nunca se encienden. El siguiente cuadro de dilogo muestra este error - nota de cmo no hay ningn smbolo + al lado del paso 2. Prepare Storage

Mientras que un plan de recuperacin, que sabe cmo comunicarse con el almacenamiento, normalmente tendra un smbolo + al lado del Paso 1, como se muestra en la pantalla de abajo.

La manera de solucionar este problema es volver a configurar el plan de recuperacin y asegurarse de que puede ver los grupos de proteccin Haga clic derecho en cada Recovery Plan Seleccione Edit Haga clic en Next para aceptar el nombre y la descripcin del plan actual Asegrese de que marca con la proteccin de los grupos afectados

156

Haga clic en Next, y en el cuadro de dilogo Create Recovery Plan Response Times, seleccione un valor de tiempo que usted cree que es apropiado para el encendido de las mquinas virtuales de recuperacin Al lado del cuadro de dialogo Create Recovery Plan Configure Test Networks, establezca las opciones para manejar la creacin de redes cuando se ejecuta una prueba. Por ltimo, usted puede suspender las mquinas virtuales en el sitio de recuperacin para liberar recursos de CPU y memoria en el cuadro de dilogo Create Recovery Plan Suspend Local Virtual Machines. En mi caso llamado Test & Dev, las MVs se suspendern Haga clic en Finish Error: Obtener Ayuda Adicional Me he dado cuenta que si deja que pase el ratn sobre el texto de error en rojo, con frecuencia se puede ver ms informacin del error.

157

Aqu el problema fue causado por la falta de espacio en disco para almacenar una instantnea remota y, en consecuencia, no puede encontrar la instantnea remota para volumen primario. Adems, si exporta los resultados de su plan, usted puede cortar y pegar este mensaje de error y enviar la informacin en un correo electrnico a sus amigos de almacenamiento quienes arreglaran todos sus problemas y harn que su dolor de cabeza desaparezca. Al menos, esa es la teora, a menos que usted sea el encargado de la capa de almacenamiento y en ese caso es su problema! Error: Non-fatal error information reported during execution of array integration script: testFailover Output: "C:\Program Files\VMware\VMware Site Recovery Manager\/scripts/SAN/LeftHand Networks/jre/bin/java" -cp "C:\Program Files\VMware\VMware Site Recovery Manager\/scripts/SAN/LeftHand Networks/UI.jar" com.lefthandnetworks.commandline.Srm.Srm < "C:\Program Files\VMware\VMware Site Recovery Manager\/scripts/SAN/LeftHand Networks/XMLinput.xml"" DELETE: The writable space on snapshot named

158

"virtualmachines_RS_Sch_1_Rmt.593" was deleted, continuing... NOTE: Had this been a real failover the remote parent volume named "replica_of_virtualmachines" would have been changed to a primary volume, continuing... ERROR: command to address 172.168.3.98 failed because could not find the matching remote schedule for primary schedule 35188AC48F2BAEBBC018AA4C3C6C6534;ProtectedManagementGroup;514;rdm_ct x1_RS_Sch_1_Pri. Error: . Despus de analizar la cabina de almacenamiento ms profundamente, esta indic que se estaba empezando a quedar sin espacio

Este pequeo episodio ilustra los peligros de un seguimiento inadecuado del almacenamiento virtual o de la creacin de LUN/Volmenes muy pequeas. La nica manera para ver si est quedando sin espacio, es mediante el software de gestin de su proveedor almacenamiento. Error: Objetos eliminados en el sitio de recuperacin y que an se hacen referencia en el Plan de Recuperacin Otro problema que puede ocurrir en el plan de recuperacin es cuando se hace referencia a objetos del vCenter tales como mquinas virtuales que ya no existen. La pantalla de abajo muestra un error de este tipo.

Como se puede ver el mensaje de error dice Error: The request refers to an object that no longer exists or has never existed. Esto fue debido a que yo borre una mquina virtual de prueba, la cual fue marcada para ser suspendida durante la prueba de mi plan de recuperacin. El plan de recuperacin tiene una entrada hurfana a este objeto que ya no existe en el sitio de recuperacin. El mismo objeto borrado crea un error ms en el plan, cuando trata de reanudar la maquina virtual suspendida la cual nunca fue suspendida en primer lugar. Para corregir este error hay que editar el plan de recuperacin y ejecutarlo a travs del asistente, hasta llegar al cuadro de dilogo donde se puede suspender las mquinas virtuales

159

Simplemente ejecutando el asistente, este actualizara el plan de recuperacin y eliminara la referencia a la mquina virtual prdida.

Escenarios de ciclos de replicacin del almacenamiento


Quiero dedicar algn tiempo para ver diferentes ejemplos o escenarios de ciclos de replicacin/instantnea, para explicar algunas de las "extraezas" que de vez en cuando se pueden ver dentro de SRM. Tomemos el ejemplo de un ciclo de mantenimiento de tres instantneas, haciendo una instantnea cada hora. Esto generar una situacin en la que usted tiene un volumen con tres instantneas, Snapshot1, Snapshot2, Snapshot3. Dependiendo del proveedor de almacenamiento, usted a veces puede ver hasta cuatro instantneas ya que la mayora de las cabinas no eliminan el Snapshot1, la instantnea ms antigua, hasta que no se haga hecho el ltimo shapshot. Durante este tiempo usted tendr Snapshot1, Snapshot2, Snapshot3 y Snapshot4. Una vez que se ha hecho Snapshot4, usted vera que Snapshot1 ser purgado y el asistente le mostrara Snapshot2, Snapshot3 y Snapshot4. Esto nos deja con dos escenarios diferentes: Escenario 1: LUN/Volumen, S3, S2, S1 Escenario 2: LUN/Volumen, S4, S3, S2, S1 En el escenario 2, S4 (snapshot4) est en proceso de ser creado o bien S1 se encuentra en el proceso de ser purgado de la serie. Por ejemplo, esto es como el VSA Lefthand Networks vera la serie en el escenario 2:

160

La forma en la que VMware SRM y el SRA de su proveedor de almacenamiento se comportan, depende de cuando un plan de recuperacin se prueba o se ejecuta y de cmo este interacte con el ciclo de replicacin. Ejemplo 1: Si SRM se ejecuta en el escenario 1, por ejemplo, a las 3:30 (S3 + 30 minutos), el SRA se comunicar con la cabina para, en primer lugar encontrar el volumen, despus completara la instantnea ms reciente (S3) y por ultimo configurara la autenticacin para permitir a los ESX el acceso a esa instantnea. Cuando la prueba termina, muchas de las cabinas borran el espacio temporal que fue utilizado por el SRM durante la toma de la instantnea. Las cabinas hacen esto para ahorrar espacio en la SAN de recuperacin. El SRA no des-autentifica un servidor ESX de la instantnea. SRM no da la informacin al SRA para hacer esto. Ejemplo 2: En este ejemplo, son las 4:01 (S4 + 1 minuto) y usted ejecuta de nuevo su plan de recuperacin de prueba. Una vez ms, SRA se comunicar con la cabina, en primer lugar, para encontrar el volumen, despus completara la instantnea ms reciente (S3), la cuan todava resulta ser S3 porque S4 esta aun siendo copiada. En este caso, el SRA no cambiar nada. S3 ya est autenticada y SRM proceder a repetir la ltima prueba que se corri. Una vez ms, cuando se detenga, no desautentificara la instantnea del servidor ESX. Usted debe ser capaz de ejecutar pruebas de SRM en sucesiones rpidas, tantas veces como lo desee. Muchas de las veces, usted en realidad no estar cambiando el estado de la SAN si el ciclo de replicacin no se ha movido todava.

161

Ejemplo 3: En este ejemplo, son ahora las 4:10 (S4 +1 min) y usted ejecuta otra vez su plan de recuperacin de prueba. Una vez ms, el SRA encontrara la instantnea ms reciente, que en este caso es S4 y esta vez autenticada, ya que la instantnea se ha completado. El servidor ESX ahora tiene montadas S3 y S4. Ambas fueron resignatured y los nombres deberan de ser "snap-NNNNN". SRM no encuentra datastores basado en nombres, sino que este encuentra los datastores por el nombre de dispositivo que la SRA pasa al SRM. Por lo tanto, independientemente del nombre del dataStore, SRM utilizar el dataStore que montamos para la prueba S4, y este ignorara los dems, sin importar cmo de similares sean en el nombre o el contenido, incluido S3. Esta captura de pantalla, muestra cmo el ESX puede ver dos imgenes al mismo tiempo, pero renombra el volumen VMFS del ms reciente para denominarlo "virtualmachines"

Nota: Recuerde que desde la ltima versin, el proceso de cambio de nombre ya no es el comportamiento por defecto, pero se puede habilitar de nuevo editando el archivo vmware-dr.xml Aqu puedo decir que el VMFS llamado "virtualmachines" es la ms reciente ya que el VSA Lefthand Networks presenta la nueva imagen con un nmero mayor de "objetivo", vmhba32: 32 en lugar de vmhba32: 31:0:1. Al final de la prueba y, durante la fase de "limpieza", el SRM debe hacer de nuevo un resignature al volumen. Esto es, lo que de vez en cuando he visto fallar. Esta captura de pantalla muestra el xito de un resignature

Ejemplo 4: En este ejemplo, han pasado dos horas ms y es exactamente una hora en punto. En este caso tenemos un nuevo escenario. Escenario 3: LUN/Volumen, S6, S5, S4, S3 S6 casi ha terminado de copiarse mientras que S3 y S4 siguen montadas en el servidor ESX. Pero tan pronto como S6 haya completado el proceso de instantnea, S3 ser borrada por el schedule. Como parte del proceso de borrado, esta ser eliminada de la lista de autenticacin para el servidor ESX y el acceso iSCSI a la

162

misma no se permitir ms. Aqu es cuando la fase de limpieza realmente ocurre y esta fase de limpieza es realizada por su cabina de almacenamiento y no por el SRM o el SRA. Despus de todo, la cabina no puede ofrecer al ESX una instantnea que ya no existe. Usted podra ver por un corto perodo de tiempo, que la autenticacin se ha eliminado de la cabina de almacenamiento y que el servidor ESX ya no ve S3. Si usted llega a una conclusin lgica, el dejar un espacio de tiempo bastante grande entre una prueba y otra le llevara a que ocurran menos posibilidades de error, ya que la fase de limpieza de la cabina de almacenamiento es ms probable que se haya completado. Si est utilizando el VSA Lefthand Networks, puede ver esta fase de limpieza en la pestaa de la Lista de Volumen en el Recovery Management Group

El efecto de esto no es inmediatamente evidente, pero usted encontrar que si navega por un DataStore que ha sido eliminado de la lista de esta manera, aunque la etiqueta del volumen/DataStore pueden estar presentes en el ESX, el contenido del datastore estar vaco, algo que es un poco desconcertante cuando lo descubre por primera vez. Realmente hay tres formas de evitar que esto ocurra. Aumentar el nmero de instantneas que usted mantiene Aumentar el tiempo entre una instantnea y la siguiente, as las instantneas se conservan durante un perodo de tiempo ms largo Temporalmente pause el schedule de replicacin y despus reandelo de nuevo cuando haya finalizado la prueba del plan de recuperacin. Nota: Con el VSA Lefthand Networks usted puede detener el schedule muy fcilmente En el ProtectedManagementGroup Seleccione su volumen Seleccione la pestaa de Schedules

163

Por supuesto, cuanto ms tiempo tenga parado el scheduler, ms cambios habr que hacer en la capa de almacenamiento y usted debe recordar reanudar su schedule cuando haya terminado.

Conclusin
En esta seccin he intentado hacer que usted ponga en funcionamiento su plan de recuperacin lo antes posible, de hecho esta ha sido mi intencin desde el principio, lo crea o no, ya que ver un producto "en accin" es la forma ms rpida de aprenderlo. Como ha visto, el hacer clic en el botn Test o Run genera una gran cantidad de actividad y de cambios. VMware SRM es un producto muy dinmico en ese sentido. Mi esperanza es que este siguiendo mi configuracin mientras lee este libro. S que es un mucho pedir, por lo que si no lo ha hecho, le recomiendo ver el primer vdeo que he vinculado en este captulo. No importa cuntas pantallas de ejemplo le adjunte, y como documente lo que pasa, nunca lo ver tan claro que como en un video. En segundo lugar, quise tratar de explicar algunas de las "extraezas" que puede ver en el producto de SRM. No es extrao en absoluto, sino que es una caracterstica de diseo del producto. Es la forma en que el ciclo de replicacin de su capa de almacenamiento interacta con el producto SRM. En el prximo captulo usted pasara la mayor parte de su tiempo con el producto, creando planes de recuperacin a medida, los cuales aprovecharan todas las caractersticas de SRM, para que usted pueda probar sus planes DR unos contra otros y para diferentes escenarios. Hasta ahora este libro se ha centrado en cmo hacer que SRM funcione. El prximo captulo tratara acerca de lo que porque realmente su organizacin compro el producto.

164

165

Captulo 6: Planes Personalizados de Recuperacin

166

Hasta ahora siempre hemos aceptado la configuracin por defecto de los planes de recuperacin. Como sabe, es posible personalizar en gran medida los planes de recuperacin. Los planes de recuperacin personalizados, le permitirn controlar el flujo del proceso de recuperacin. Junto con la personalizacin de las asignaciones de las mquinas virtuales, le permitir automatizar completamente las tareas comunes cuando se ejecuta un plan DR. La creacin de mltiples planes de recuperacin, con diferentes opciones, nos permite hacer frente a diferentes situaciones que provocan el uso de nuestro sitio de recuperacin y, adems, nos permite poner a prueba los planes para medir su eficacia. Con los planes de recuperacin personalizados y la personalizacin de la configuracin de la mquina virtual, podemos controlar y automatizar una serie de ajustes como por ejemplo: Apagar las mquinas virtuales en el sitio protegido por orden de prioridad Encendido de mquinas virtuales en el sitio recuperacin mediante la configuracin de la prioridad Cambiar la configuracin IP de las mquinas virtuales Detener el plan y emitir un mensaje de operador Detener el plan y ejecutar un comando Adems, en este captulo quiero profundizar un poco ms en SRM para discutir las consecuencias de las cuestiones siguientes: Crear/cambiar el nombre/cover objetos en el vCenter del sitio de proteccin y recuperacin Uso de las funciones de VMware RDM (Raw Device Mapping) Escenarios de almacenamiento ms complejos donde hay mquinas virtuales con mltiples discos virtuales, almacenados en varios datastores VMFS y usando VMFS extents Creacin de nuevas mquinas virtuales Migracin en fro con la reubicacin de archivos con Storage VMotion Vale la pena mencionar que algunos de estos valores slo sern eficaces dependiendo de si usted solo est probando su plan de recuperacin o si est realmente invocndolo. As que algunos de estos valores slo se aplicarn durante los pruebas y, lo que es ms importante, algunos de estos valores slo se aplicarn cuando evoca en realidad su plan de DR. Por ejemplo, la posibilidad de apagar las mquinas virtuales en el sitio protegido nunca es incluido en una prueba de un plan de recuperacin, pero si es posible hacerlo cuando se invoca un plan de recuperacin real. Puede ver si una configuracin determinada llega a tal efecto, mirando la columna modo en la ventana de recovery plans recovery steps

167

Aqu podemos ver, que el apagado de las mquinas virtuales (paso 1) en el sitio de proteccin, slo se produce cuando se ejecuta una recuperacin, mientras que el proceso message, clean, resume y reset (pasos 8-9) solo se llevan a cabo cuando se ejecuta una prueba. Cuando un paso no est marcado ni como "Recovery Only" ni como "Test Only", significa que siempre se lleva a cabo independientemente del modo que se est utilizando.

Configurar el apagado de las mquinas virtuales protegidas en el sitio protegido


Usted puede encontrar esta caracterstica algo curiosa. Despus de todo, si ha decidido invocar su plan DR - no es esto lo que se hace slo cuando todo est perdido en el sitio protegido?. En cierto modo usted tiene razn, ya que si ocurre un gran incendio o un ataque terrorista, este puede eliminar totalmente su sitio principal. Para decirlo sin rodeos, puede haber nada que apagar en el sitio protegido y, de hecho, puede haber perdido todas las comunicaciones con su sitio de recuperacin. Para muchos, esto parece ser una verdad innegable. As que permtame ponerle un ejemplo de una situacin en la que ocurri un desastre, pero no dio lugar a la prdida del sitio proteccin, de hecho, este desastre ni siguiera toco el sitio de proteccin, aunque terminamos invocando el plan DR de todos modos. En esta situacin, la opcin de apagado de las maquinas virtuales en el sitio de proteccin tiene un sentido lgico. En 1996 estaba trabajando para una empresa en el Reino Unido, la cual tiene su sede corporativa en el Centro Arndale, en Manchester. El Centro Arndale es un centro comercial muy grande, de empresas en el centro de Manchester y una bomba causo grandes daos. Los daos fueron valorados por las aseguradoras en el rango de 411m (GBP), con unos costos de reconstruccin en el rango de 1.2b (GBP). La bomba "camin bomba", estaba en un Ford mal aparcado y fue denotada por el IRA. La bomba pesaba 3.300 libras y ha sido, hasta la fecha, la bomba ms grande puesta por el IRA. Usted puede leer informes de archivo en la BBC sobre ese da en este website: http://news.bbc.co.uk/onthisday/hi/dates/stories/june/15/newsid_2527000/252700 9.stm

168

Si prefiere wiki, tambin hay una pgina wiki. http://en.wikipedia.org/wiki/1996_Manchester_City_Centre_bombing El edificio fue evacuado debido a advertencias anteriores de un inminente ataque, una tctica muy comn utilizada por el IRA en esos momento. Desafortunadamente, cuando la bomba fue detonada, la gente que estaba detrs del cordn de seguridad de la polica, resultaron heridas. La empresa en la que estaba trabajando, tena la sede corporativa en un piso tan alto del edificio que este no fue afectado. De hecho, el Centro Arndale sobrevivido a la explosin, mientras que otros edificios, cerca del epicentro, fueron demolidos y reconstruidos. Los sistemas que haba en funcionamiento en el Centro Arndale no se vieron afectados, aunque no recuerdo ahora si haba alguna comunicacin con ese lugar. Yo era slo un trabajador de nivel medio del personal de esta empresa y, estaba trabajando en Birmingham en ese momento, un largo camino de cualquier peligro real.

169

Es quizs aleccionador recordar que cuando estos terribles atentados tuvieron lugar, nuestra ltima preocupacin fue el negocio y nuestro plan DR, sino la seguridad de los miembros del personal que viven y trabajan en la zona. El bomba exploto un sbado por la maana con la intencin de causar los mximos daos civiles, los cuales estaban haciendo sus compras semanales. Sin embargo, para ser sinceros, otra de las preocupaciones de una minora del personal de la empresa fue, si la empresa podra sobrevivir a la situacin y que si se iba a cobrar al final del mes. Despus de todo, los sistemas de la nmina estaban centralizados en el Centro Arndale. No obstante, como se puede esperar, todo el lugar se convirti en "escenario de un delito" muy rpidamente, despus de que los servicios de emergencia hicieran su trabajo rescatando a todos los supervivientes. Por este motivo, incluso si nuestros sistemas hubiesen estado en Manchester, no hubisemos podido acceder a ellos mientras que los organismos de investigacin forense estaban realizando su trabajo explorando el sito donde la explosin tuvo lugar. En este contexto, la funcin "apagar maquinas virtuales en el sitio protegido" tiene sentido ya que no queremos encender los sistemas de recuperacin que puedan tener el mismo nombre NetBIOS y la misma direccin IP al mismo tiempo que los sistemas del sitio de proteccin. Esto podra crear los conflictos suficientes como para poner fin a nuestro plan de recuperacin o detener a nuestros usuarios finales de recibir los servicios requeridos. Usted podr aplicar este ejemplo a cualquier invocacin del plan DR "previsto", como por ejemplo, grandes inundaciones o un corte de energa que no cause dao directo en la zona protegida, pero que es lo suficientemente "intrusivo" para sus operaciones comerciales normales, que se considera necesario un plan de DR. En trminos de SRM, el producto primero apagara las mquinas virtuales en el siguiente orden - Low, Normal, High. Esto es directamente contrario a la forma de recuperacin que las mquinas virtuales son encendidas como se muestra en la pantalla siguiente

Por defecto, el apagado de las mquinas virtuales en el sitio de proteccin slo sucede cuando usted activa su plan de recuperacin real y todas las mquinas virtuales, por defecto, tienen un configuracin de "Normal" por prioridad, tanto en el sitio protegido como en el sitio de recuperacin.

170

A efectos de este captulo, voy a crear un nuevo plan de recuperacin 1. En la ventana SRM Manager del vCenter del sitio de recuperacin, seleccione Recovery Plans y haga clic en el botn Create Recovery Plan

2. Escriba un nombre y una descripcin para el plan, como por ejemplo Complete Loss of Site - Custom Plan y haga clic en Next 3. Seleccione sus grupos de proteccin(s) y haga clic en Next 4. Ajuste el tiempo de respuesta por defecto de la mquina virtual , y haga clic en Next 5. Seleccionar las opciones para Test Networks, y haga clic en Next 6. Seleccione cualquier mquina virtuale que desee suspender durante el plan de recuperacin, y haga clic en Finish Nota: Esto debera crear un segundo plan como se ve a continuacin

7. Seleccione su nuevo plan, haga clic en la pestaa Recovery Steps y ampli el signo + que aparece junto a 1. Shutdown Protected Virtual Machine at Protected Site

171

8. Seleccione una mquina virtual y utilizando el icono Step Up/Down de la barra de herramientas

re-ordene la ubicacin de las mquinas virtuales para que estn en la ubicacin correcta que precise. La pantalla de abajo muestra mi nuevo orden

Nota: Esto parece un proceso muy laborioso. Por supuesto, la decisin de parar a una mquina virtual antes que otra siempre tiene que ser configurado por mquina virtual y una a una. Nota: Usted podr ver cmo pongo mis mquinas virtuales menos crticas con una prioridad baja, las cuales se ejecuta en primer lugar. La idea de esto podra ser quizs el querer realizar un plan de recuperacin con una mquina virtual de menor importancia y comprobar con SRM que funciona

172

correctamente, antes de iniciar el plan de otras mquinas virtuales. Esto es ms consistente con la invocacin de un plan DR ms "planeado". Quizs usted conoce que se van a realizar algunos trabajos en el rea y sabe que le van a cortar la electricidad por unos das, mas das a los que su propio sistema de generacin de energa o SAI puede hacer frente. Asumo que tiene algn tipo de generador diesel que permite alimentar a sus sistemas de 1-3 das. Esto podra provocar el uso del plan de recuperacin a pesar de que no ha "perdido" el sitio protegido.

Configurar la prioridad/orden de las mquinas virtuales en el sitio de recuperacin


Por supuesto, es mucho ms fcil de explicar y justificar este aspecto del plan de recuperacin. Nuestras mquinas virtuales en el sitio de recuperacin deben ser encendidas en el orden correcto para que aplicaciones muti-tier puedan funcionar correctamente. Sistemas de infraestructura bsica tales como los controladores de dominio y DNS tendrn que entrar en funcionamiento en primer lugar, seguidos tal vez por sistemas de bases de datos. Estos servicios de sistemas de bases de datos, sin duda alguna, utilizaran cuentas de dominio para la puesta en marcha y sin el servicio de directorio en funcionamiento, esos servicios no pueden empezar. El caso es que para que funcione MV3, MV1 y MV2 deben ejecutarse primero y, para que funcione MV2, MV1 debe iniciarse primero. Por supuesto, el orden exacto que usted necesita para que su plan funcione va ms all del alcance de este libro ya que es algo muy especfico para su organizacin. Sin esta funcin no se configura, las mquinas virtuales son ms o menos encendidas aleatoriamente, aunque todas estn contenidas en el marco de la prioridad "normal". La conclusin a esta lgica es que usted podra tener un plan de recuperacin slo para una determinada aplicacin crtica de negocio. En este caso, usted no ha perdido el sitio protegido sino slo una pieza crtica de la infraestructura del negocio. Esto requiere que usted gestione sus LUNs/volmenes cuidadosamente. En este caso, la aplicacin crtica de negocio estar en una LUN/Volumen dedicada slo para l y habr una asignacin uno-a-uno entre las LUNs que contienen, digamos, su sitio Web de comercio electrnico, y sus "grupos de proteccin" en SRM. Esto permitira tener "grupos de proteccin" para la web, Citrix, servidores de archivos, etc. Precisamente la interfaz de usuario para configurar el orden de prioridad de las mquinas virtuales en el sitio de recuperacin, funciona de la misma forma que para el orden de apagado de las mquinas virtuales en el sitio de proteccin. 1. Seleccione su nuevo plan, haga clic en la pestaa Recovery Steps y ampli el signo + que aparece junto a 5. Recover Normal Priority Virtual Machines 2. Vuelva a seleccionar una mquina virtual y utilizando los iconos de Step Up/Down de la barra de herramientas

re-ubique y re-ordene las mquinas virtuales para que estn en la ubicacin correcta. La pantalla de abajo muestra mi nuevo orden

173

Nota: Aqu he ampliado el smbolo + de la mquina virtual especfica para destacar una caracterstica til de los planes de recuperacin de SRM. Es posible bajar de nivel en eventos especficos mientras que una prueba se est ejecutando. Esto le permitir seguir lnea por lnea cada accin. Como es posible que ya haya visto, la pestaa de Recovery Step tambin le da el valor, indicado en un porcentaje %, de cunto tiempo tarda en cada paso.

Orden de puesta en marca paralelo y Normal/Baja


Es importante que sepa que el orden de puesta en marcha en Normal/Bajo, funciona de forma muy diferente a la puesta en marcha en el orden alto. Con la prioridad alta, las mquinas virtuales se inician en serie. As MV3 no se iniciar antes que MV2, y MV2 no se iniciar antes que MV1. Con prioridad Normal y Baja, las mquinas virtuales se inician en orden, pero si usted tiene ms de un servidor ESX (como es el caso en la mayora de los entornos) puede iniciar ms de una al mismo tiempo. As pues, si tengo seis mquinas virtuales (MV1, MV2, MV3, MV4, MV5, MV6) y tres servidores ESX, estas se iniciaran en este orden, pero si hay suficientes servidores ESX y suficientes recursos, entonces MV1, MV2 y MV3 se iniciaran en primer lugar, seguido por MV4, MV5, y MV6. SRM no encender MV4 hasta que MV1, MV2 y MV3 no se hayan iniciado correctamente. Como consecuencia, el orden es menos estricto para la puesta en marcha de Normal/Baja. Despus de todo si cada mquina virtual se puso en marcha en serie, en vez de simultneamente, aquellas personas con un gran nmero de mquinas virtuales tendrn que esperar mucho tiempo para conseguir que sus mquinas virtuales arranquen.

Adicin de Mensajes
Es posible interrumpir el flujo de un plan de recuperacin para enviar un mensaje al operador. Por defecto, cuando todos los planes de recuperacin se crean y se prueban, hay un mensaje incorporado que para la prueba, para que se pueda proceder a realizar la fase de "limpieza" de la prueba. En este caso, el mensaje vale para dar al operador la oportunidad de examinar los resultados de la prueba y confirmar/diagnosticar la configuracin.

174

Es posible aadir nuestros propios mensajes a nuestro plan de recuperacin personalizado. En mi caso me gustara que se produzca un mensaje, despus de todas mis mquinas virtuales principales se hayan encendido. Estas mquinas virtuales son todas las etiquetadas con un nmero 1 como CC-1, CTX-1, y as sucesivamente. En mi caso quiero que aparezca un mensaje entre el High y Normal para poder pedir confirmacin que las maquinas virtuales primarias estn en funcionamiento, antes de permitir que las maquinas secundarias se enciendan. Nota: Los mensajes son siempre aadidos encima del paso seleccionado en el plan de recuperacin 1. En el plan de recuperacin, seleccione + 5. Recovery Normal Priority Virtual Machines 2. Haga click en el icono Add Message Step

Nota: Tambin puede hacer clic con el botn derecho y seleccionar Add Menssage

175

3. En el cuadro de dilogo Add Message Step, escriba su mensaje y haga clic en OK

Nota: Este mensaje debe ser aadido a la lista de pasos y debe provocar una nueva numeracin de todos los pasos en el plan de recuperacin.

176

Nota: Es posible insertar mensajes y comandos en las propiedades de cada mquina virtual. En la pestaa de la mquina virtual del plan de recuperacin, cada mquina virtual puede ser editada para agregar mensajes por mquina virtual.

Adicin de comandos
Al igual que ocurre con los mensajes, es posible aadir comandos en el plan de recuperacin. Estos comandos pueden llamar a scripts en formato bat, cmd, vbs, wmi, Powershell o Perl, para automatizar otras tareas. Cuando se llaman a estos scripts, usted debe proporcionar la ruta completa de la secuencia de comandos del comando que se trate. Por ejemplo para ejecutar un archivo de Microsoft. BAT o archivo CMD usted debera escribir C:\Windows\System32\cmd.exe /c c:\alarmscript.bat Estos scripts se ejecutan en el servidor del sitio de recuperacin de SRM y, en consecuencia, debern almacenarse en este servidor. Usted debe saber que se ejecutan bajo el contexto de seguridad de la cuenta de administrador local del servidor SRM. Como prueba, he utilizado el comando NET SEND de Microsoft para enviar un mensaje a otro sistema. Esto requiere que el servicio de mensajera este habilitado en el sistema de destino. @ echo off net send 192.168.2.198 Please contact nathanedwards@domain.com to inform him that the first recovery has completed 1. En el Recovery Plan seleccione, en mi caso, + 5. Message: WARNING: Please confirm that all the High Priority VMs have started and their services are functioning correctly 2. Haga clic en el icono Add Command Step

177

3. En el cuadro de dilogo Add Command Step, escriba la ruta de acceso al intrprete de comandos y el archivo de comandos y haga clic en OK

Nota: En mi caso este script se ejecuta justo antes de mi mensaje

178

Configure la direccin IP de configuracin de las mquinas virtuales de recuperacin


Una de las tareas que puede desear automatizar, es el cambio de una direccin IP dentro de la mquina virtual. Actualmente el mtodo que tiene VMware para lograrlo es mediante sysprep de Microsoft, desde la parte de personalizacin de la configuracin de usuario en vCenter. Lo importante a tener en cuenta es la funcin habitual de este componente para desplegar nuevas mquinas virtuales. En este caso los ajustes de personalizacin de los clientes son ignorados. Los nicos ajustes que se aplican son las IP. El inconveniente de este enfoque es que cada mquina virtual requerir su propia personalizacin, lo cual es una tarea "administrativa" muy intensa. Por ello vale la pena considerar otros enfoques que no requieran un cambio en la configuracin IP en todas y cada una de las mquinas virtuales. Estas otras alternativas podran ser Mantener las direcciones IP actuales y redirigir los clientes por direccin IP Usar stretched VLANs de forma que las mquinas virtuales siguen en la misma red Asignar direcciones IP mediante un cliente DHCP y reservas Si desea utilizar el mtodo de VMware, empiece por la configuracin personalizada de las mquinas virtuales afectadas en el vCenter del sitio de recuperacin. A ms largo plazo, no me sorprendera si VMware mejora este mtodo, tal vez mediante la inclusin de un archivo separado por comas editado en Microsoft Excel, el cual podra permitir el cambio de las direccin IPs de forma conjunta, digamos, mediante la "inyeccin" de una secuencia de comandos VBS o WMI en el interior de la mquina virtual. Advertencia: Recuerde que para que este mtodo funcione necesita copiar los archivos de sysprep en la ubicacin C: \ Documents and Settings \ All Users \ Application Data \

179

VMware \ VMware VirtualCenter \ sysprep. Si no hace esto, vCenter no podr encontrar la versin correcta de sysprep y usted recibir este mensaje de error:

Creacin de un IP personalizado 1. Sobre el vCenter del sitio de recuperacin 2. En el men, seleccione Edit y Customization Specification 3. En la ventana Customization Specification Manager, haga clic en el botn New

4. Escriba un nombre descriptivo, como SRM: CTX-1 IP y haga clic en Next

180

5. Rellene los cuadros de dilogo con la informacin deseada hasta llegar a Network Interface Settings y seleccione Next

6. Seleccione la tarjeta de red de la lista y seleccione el botn Customize

181

7. Configure su IP y haga clic en OK

8. Haga clic en Next y Finish en el cuadro de dilogo Nota: Una vez que haya creado la personalizacin de un sistema guest, es posible copiarlo utilizando el Guest Customization Manager. Una vez copiado, usted puede usarlo para editar y modificar la direccin IP aplicadas

182

Establezca la configuracin personalizada de mquinas virtuales El siguiente paso es configurar cada mquina virtual con sus ajustes de personalizacin 1. En el vCenter del sitio de recuperacin, seleccione Recovery Plan y haga clic en la pestaa de mquinas virtuales

2. Seleccione la mquina virtual en la lista, en mi caso ctx-1 y haga clic en botn Edit ... 3. En el cuadro de dilogo Configure Virtual Machine, haga clic en el botn Browse y seleccione Guest Customization/Specification Settings que cre anteriormente

183

4. En el asistente, haga clic en Next Nota: En este asistente puede ajustar la prioridad de una mquina virtual de recuperacin. Usted puede decir que una mquina virtual debe recuperarse, pero que no se encienda automticamente, por lo tanto, dejando a un operador que decida cuando una mquina virtual se enciende

184

5. Adems, podemos hacer que un comando/mensaje se ejecute antes o despus de que una mquina virtual se haya encendido Nota: Si configura estas opciones, las ver en el plan de recuperacin bajo las opciones de Pre-Power On y Post-Power On de la siguiente manera:

Asignaciones personalizadas de VM
Como usted puede que recuerde, las "asignaciones de inventario" son opcionales, pero son muy tiles porque sin ellos, tendra que hacer mapeos de red, reserva de recursos y carpetas para cada mquina virtual. Puede que haya ocasiones en las que una mquina virtual no ser aadida al sitio recuperacin, porque SRM no pueda asignar dicha mquina virtual a una red vlida, reserva de recursos o carpeta. Como alternativa, usted tendr que decidir las asignaciones de la mquina virtual personalizada. 1. En SRM, seleccione el Grupo de Proteccin y haga clic en la pestaa de mquinas virtuales

2. Seleccione la mquina virtual afectada y haga clic en el botn Configuracion Protection 3. En el asistente Edit Virtual Machine, seleccione una ubicacin de carpeta para la VM

185

Nota: Nota cmo puede sobrescribir la configuracin de asignaciones de inventario por defecto, ya que esta mquina virtual se sita fuera del mbito de los ajustes por defecto. Tal vez valga la pena dejar claro, que si la configuracin de mquinas virtuales est cubierta en las "asignaciones de inventario", este cuadro de dilogo estara desactivado. Recuerde que las "asignaciones de inventario", permiten "excepciones" a la norma general, lo mismo que ocurre con VMware HA y DRS. 4. En el asistente Edit Virtual Machines, seleccione un ESX para esta MV

186

Nota: En esta interfaz, si usted tiene la opcin "Fully automated" DRS clster, como yo tengo, no podr especificar un servidor ESX. En lugar de eso slo podr seleccionar el clster donde quiere que la mquina virtual se arranque y DRS decidir que servidor ESX del clster es usado para arrancar dicha maquina. Como sabe, esta funcionalidad es denominada "initial placement" en DRS. 5. En el asistente Edit Virtual Machines, seleccione una Resource Pool para esta mquina virtual

6. En el asistente Edit Virtual Machines, seleccione una red para esta mquina virtual

187

Nota: En este caso, la red de la columna de recuperacin para la mquina virtual esta en blanco. Esto es una buena indicacin de mi problema inicial, en donde el grupo de proteccin, no saba asignar la red primaria (vlan10) de las mquinas virtuales a la red correcta en el sitio de recuperacin, porque no se incluy en las "asignaciones de inventario " Nota: La opcin de prioridad de recuperacin controla donde se colocara la mquina virtual en el plan de recuperacin. Si elige "normal", por ejemplo, la mquina virtual se colocara en la categora normal para apagar las mquinas virtuales en el sitio protegido, y en la categora normal para el encendido de las mquinas virtuales en el sitio de recuperacin.

Gestin de cambios en el sitio de proteccin


Es posible que empiece a ver que SRM va a necesitar una gestin y un mantenimiento casi continuo. Como su sito protegido (produccin) est en constante evolucin y cambio diario, este mantenimiento es necesario para mantener el sitio de proteccin y el sitio de recuperacin adecuadamente sincronizados. Una de las principales tareas de mantenimiento, es asegurarse que las nuevas mquinas virtuales que necesitan proteccin son debidamente incluidas por uno o ms planes de recuperacin. La simple creacin de una mquina virtual y el almacenamiento de esta en un volumen VMFS replicado, no incluye automticamente su mquina virtual en su plan de recuperacin. Despus de todo, no todas las mquinas virtuales puede que necesiten proteccin. Si sigue este hecho a una conclusin lgica, es posible que se haga esta pregunta - por qu crear una nueva mquina virtual en un volumen VMFS que se replica si no lo necesito? Sin embargo, en la actualidad, en Vi3 es posible orientar o limitar a un usuario para que slo pueda seleccionar un volumen VMFS determinados cuando se crea una nueva mquina virtual. Existe el riesgo de que un usuario involuntariamente pueda poner una MV en un volumen VMFS que se est

188

replicando cuando no debiera. Igualmente existe una clara posibilidad de que el usuario pueda almacenar su nueva mquina virtual en un volumen sin proteccin. Creacin y proteccin de nuevas mquinas virtuales Usted puede asumir errneamente que, como ha creado una nueva mquina virtual, esta ser automticamente "reconocida" por SRM y protegida por defecto. Sin embargo, este no es el caso. Si bien la creacin de una nueva mquina virtual en un volumen VMFS replicado debe velar que los archivos de la mquina virtual, por lo menos son duplicados en el sitio de recuperacin, una nueva mquina virtual no se "inscribe" automticamente al grupo de proteccin definido en el sitio de proteccin. Usted puede ver esto si crea una nueva mquina virtual, como lo he hecho yo, con los mismos sitios cubiertos por la asignacin de inventario.

Este comportamiento no es diferente de un error que vimos anteriormente, donde una mquina virtual o asignacin de inventario falla al mapear las maquinas virtuales. Esto es muy fcil de solucionar. 1. En el sitio de proteccin, seleccione la mquina virtual de grupo de proteccin y seleccione la mquina virtual que actualmente no est protegida, en mi caso esta es la mquina virtual web-3 2. Haga clic en el botn Configure Protection

189

3. En el cuadro de dilogo Edit Virtual Machines Properties, seleccione una carpeta de destino para la mquina virtual situada en el sitio de recuperacin

4. A continuacin, seleccione un clster donde poner la mquina virtual, o si no tiene un clster, seleccione un servido ESX

190

5. Despus, seleccione un resource pool para la mquina virtual

6. Despus, seleccione o ajuste la asignacin de red por defecto

191

7. Ajuste cualquiera de las opciones de almacenamiento de la mquina virtual

Nota: Recuerde que los dispositivos conectados, como disquetes y CDs, pueden hacer que una mquina virtual no sea protegida, especialmente si esos

192

recursos no estn disponibles en el sitio de recuperacin. Esta es la razn por la cual usted tiene un botn de "detach" en el cuadro de dilogo anterior. 8. Seleccione, choose a storage location for the temporary placeholder/shadow files

Nota: Podra seguir de esta manera, con una pantalla de volcado por todos y cada uno de las partes del asistente. Pero esto podra llegar a ser algo tedioso y estoy seguro de que todo esto ya le "suena" bastante. Este proceso aadir la mquina virtual a cada uno de los planes de recuperacin, as como al inventario del sitio de recuperacin. Como se puede ver debajo en la imagen adjunto, web-3 es una nueva mquina virtual que tiene ahora un archivo placeholder en el resource pool de las maquinas virtuales de recuperacin. Tambin esta listada en la categora Normal de los planes de recuperacin que utiliza el grupo de proteccin.

193

Cambiar y mover objetos de inventario del vCenter Como puede ver el producto SRM depende en gran medida de que el operador haya hecho el emparejamiento de las dos instancias de vCenter correctamente. Estos vCenters no comparten una base de datos en comn. As que puede estar legtimamente preocupado por lo que sucede cuando los objetos, ya sea en el sito de proteccin o de recuperacin, son renombrados o reubicados. Existen algunas normas y regulaciones relativas al cambio de nombre de varios objetos en vCenter. En principio, el cambio de nombre o la creacin de nuevos objetos no necesariamente "rompen" las asignaciones de inventario configuradas con anterioridad. Esto se debe a que las asignaciones, en realidad, apuntan a los nmeros de referencia de objetos. Cada objeto en el inventario de vCenter es "sellado" con un valor MOREF (Managed Object Reference Numbers). Estos se pueden considerar como los SIDS en Active Directory, y cambiar el nombre de un objeto en vCenter no cambia el valor de los objetos MOREF. La nica excepcin a esto son los port groups, que no estn asignados a un vCenter MOREF, de hecho, su configuracin y los identificadores no estn en el servidor de vCenter, sino en el servidor ESX. Si examinamos los escenarios siguientes, podremos ver el efecto del cambio de nombre de los objetos en vCenter: Cambiar el nombre de las mquinas virtuales No es un problema grave. Los grupos de proteccin actualizan los nuevos nombres al igual que los planes de recuperacin. Sin embargo, las referencias de la maquina virtual no son actualizadas automticamente. Esperar al prximo ciclo de replicacin o volver a ejecutar el plan de recuperacin tampoco actualizara las referencias de la maquina virtual (placeholder/shadow). Afortunadamente, esto no hace parar a su plan de recuperacin. Descubr que la nica forma de arreglar este problema era desproteger y volver a proteger la mquina virtual. Esto no es un mtodo deseable, ya que significa que usted pierde las personalizaciones de su plan de recuperacin.

194

Cambiar el nombre del DataCenter, Clusters, Carpetas protegidas en el sitio de proteccin No es un problema. Las ventanas de asignaciones de inventario se actualizan automticamente Cambiar el nombre de Resource Pools en el sito protegido No es un problema. Las ventanas de asignaciones de inventario se actualizan automticamente

Cambiar el nombre de los port grupos del Switch Virtual en el sitio protegido En este caso, una actualizacin de las asignaciones de inventario es requerido, y las asignaciones tendrn que ser re-creadas en el sitio de recuperacin. Si no lo hace, las mquinas virtuales en el sitio de proteccin se convertirn en "hurfanas" (orphaned)

Nota: Este "orfandad" de la mquina virtual es una "caracterstica" de Vi3, y no es especficamente un problema de SRM. Sin embargo, s tiene un efecto significativo sobre SRM. Esto puede hacer que el proceso de grupo de proteccin (es el proceso que crea el marcador de posicin/shadow o placeholder de las mquinas virtuales en el sito de recuperacin) falle. Corregir esto para todos y cada una de las mquina virtual utilizando el cliente de Vi es trabajo muy laborioso. Puede automatizar este proceso con secuencias de comandos, por ejemplo con cmdlets de PowerShell para VMware y que proporciona el mismo VMware. Si desea obtener ms informacin acerca de esto, escrib un libro sobre cmo empezar en PowerShell: http://www.rtfm-ed.co.uk/?p=543 Por ejemplo: get-vm | get-networkadapter | sort-object -property "NetworkName" | where {'vlan61' -contains $_.NetworkName} | Set-NetworkAdapter -NetworkName vlan21

195

En la pantalla de arriba, tuve que hacer clic en el botn Refresh para ver las redes. Cambiar el nombre del port group, de vlan10-12 a vlan20-23, provoc una prdida de las asignaciones en el sitio de recuperacin, indicado por el mensaje "None Selected Message". Los otros objetos estn bien. Renombr: o o o o DataCenter y Cluster para tener referencias a la ubicacin de Londres, La carpeta a Server Room 1 El resource pool a Production El portgroup de vlan20, a vlan21

196

Gestin de cambios en el sitio de recuperacin


Cambiar el nombre de DataCenters, Clusters y carpetas en el sitio de recuperacin No es un problema. Las ventanas de asignaciones de inventario se actualizan automticamente. Yo renombre el DataCenter, Cluster y carpetas, a las referencias especficas de Londres y Reading. Cambiar el resource pools en el sitio de recuperacin No es un problema. Las ventanas de asignaciones de inventario se actualizan automticamente. Yo renombre el resource pool, a las referencias especficas de Londres y Reading. Cambiar el nombre del port group del switch virtual en el sitio protegido Mi experiencia me dice que el cambio del nombre de los port groups en el sito de recuperacin es mucho ms intrusivo. Yo renombre mis port group de vlan50-52 a vlan60-62. Sin embargo, esto no se actualizo en la ventana de asignacin de inventario. La ventana de inventario an tena los port groups en el vCenter del sitio de recuperacin los cuales ya no existian en realidad. Incluso un reinicio del vCenter en el sitio de recuperacin no corrige este problema. La nica solucin fue, manualmente asignar el port group Antes ...

... despus ....

197

Despus de todo, el cambio de nombres de DataCenters, Cluster, carpetas, resource pools y redes en mis dos entornos en vCenter, parecen completamente distintos

Mis cambios aqu no son casuales. Utilizare esta estructura para demostrar un sitio de recuperacin bidireccional, donde dos centros de datos actan como sitios DR recprocos, el uno del otro. Otros cambios en el Vi3 y el entrono de SRM Mi experiencia me dice, que hay otros cambios que pueden tener lugar en el Vi3 y SRM que pueden causar que las relaciones que configuramos en SRM se rompan. Por ejemplo, he descubierto que si se renombran los volmenes VMFS en el sito de

198

proteccin antes de que este volumen haya sido tratado por un ciclo de replicacin, puede causar problemas. Lo que puede suceder es que usted cambie el nombre de un volumen VMFS en el sitio de proteccin antes de que haya sido cubierto por el siguiente ciclo de replicacin y, despus ejecute una prueba. La prueba falla, porque el test espera ver el nombre antiguo, no el nombre nuevo y todava se presentan con el nombre antiguo en el sitio de recuperacin. El mensaje de error ser "File not found", cuando el plan de prueba se ejecuta. Usted ver que su volumen VMFS replicado est vaco!. La solucin que yo encontr fue simplemente esperar hasta que el volumen VMFS, al cual le cambiamos el nombre, llega al sitio de recuperacin, en otras palabras, espere hasta el prximo ciclo de replicacin y el problema se elimino. Para el cambio de nombre de volmenes VMFS, vale la pena decir que las fases de la configuracin de los SRM ocurren en un orden especfico por una razn y, cada etapa tiene una dependencia de la etapa anterior. El orden de la configuracin de SRM es la siguiente: 1. 2. 3. 4. 5. "Parear" los dos sitios Array Manager Asignaciones de inventario Grupos de proteccin Crear plan de recuperacin

Digamos por ejemplo que usted borra su grupo de proteccin. Lo que ocurre es que el plan de recuperacin(s) tiene referencias a los grupos de proteccin que ya no existen. Si crea un nuevo plan de proteccin, entonces tiene que ir manualmente al plan de recuperacin y configurar este para usar el grupo de proteccin correcto. Como, borrar las configuraciones y volverlas a crear, es una forma muy popular de "arreglar" los problemas de TI en general, usted debe tener mucho cuidado. Usted debe entender las consecuencias de la eliminacin y la re-creacin de los componentes. Por ejemplo, si decide borrar y recrear un grupo de proteccin y luego decide usar su plan de recuperacin, lo que encontramos es que todas las prioridades de configuracin en el plan se habrn perdido y se habrn establecido los valores por defecto. Por lo tanto, usted ver que todas las mquinas virtuales se re-alojan de nuevo en la categora normal para el apagado y encendido de las mquinas virtuales. Esto es muy molesto, si despus de todo se ha pasado mucho tiempo configurando que todas sus mquinas virtuales se enciendan en el momento adecuado y en el orden correcto. Por ltimo, una palabra de advertencia. Como hemos visto, la mayora de los cambios que se producen pueden ser hechos por SRM. Sin embargo, es importante destacar que las mquinas virtuales de produccin no se propagan al sitio de recuperacin. Si aumenta o disminuye la cantidad de memoria asignada a una mquina virtual, despus de haberla incluido en un grupo de proteccin, la nica manera de actualizar los cambios es eliminando el grupo de proteccin de la mquina virtual y volver a protegerla, lo que provoca la destruccin del placeholder VMX de la mquina virtual del sitio de recuperacin. El desajuste entre el archivo real VMX y el placeholder no es tcnicamente importante. Cuando se prueba el plan, la cantidad de memoria asignada a la mquina virtual en la zona protegida ser utilizada. Moraleja de la historia: Mire a la eliminacin eventual de las asignaciones de inventario y grupos de proteccin con extrema precaucin. Lo que espero es que las futuras versiones de SRM, tendrn una funcin de importacin y exportacin que le permitir una copia

199

de seguridad de sus planes de recuperacin, separado de la base de datos SQL en el que estn almacenados.

Creacin de nuevas redes y nuevas mquinas virtuales en almacenamiento nuevo


A medida que su organizacin crece y cambia el sitio protegido, una vez ms ser necesaria la actualizacin de SRM para que este sea consciente de estos cambios. Digamos, por ejemplo, que se crea una nueva red o VLAN en el sito de proteccin que usaran nuevas mquinas virtuales. En este caso, el SRM del sitio protegido deber ser reconfigurado para actualizar estos cambios. Esto es particularmente "agudo" en la parte de asignaciones de inventario en SRM. Adems, como el sitio de proteccin crece, tambin lo harn sus requisitos de almacenamiento y, la creacin de nuevos LUNs/Volmenes se tendrn que replicar al sitio de recuperacin. Por consiguiente, la configuracin de la cabina de almacenamiento tendr que actualizarse para garantizar que el SRM es consciente de estas nuevas LUNs de almacenamiento. En el siguiente ejemplo, he creado una nueva VLAN, llamada VLAN23 y toda una nueva serie de mquinas virtuales llamadas ctx-3, dc-3, fs-3, sql-3, y web-3. Estas maquinas virtuales fueron conectadas a la nueva VLAN. A los administradores de SRM del sitio protegido y de recuperacin, se les asign la tarea de asegurarse de que las maquinas virtuales estn protegidas. Adems, se identific que el volumen VMFS llego a punto de saturacin, tanto en trminos de I/O como de espacio libre. Por lo tanto, una nueva LUN/volumen fue creada, y el equipo de almacenamiento se encargo de que esta nueva LUN fuera replicada al sito de recuperacin.

200

Como usted puede imaginar, la configuracin actual que tengo de SRM, no hace nada para estas nuevas mquinas virtuales. Estas maquinas no estn cubiertas ni por el Array Manager, ni por las asignaciones de inventario, ni por el grupo de proteccin y ni, en consecuencia, por los planes de recuperacin. Actualizacin del Array Manager Simplemente creando una nueva LUN/Volumen de almacenamiento en una cabina que se replica a otro lugar, no es suficiente para que la parte del Array Manager de SRM lo actualice. Al parecer, los SRAs de los vendedores no son configurados para escanear la cabina de almacenamiento en intervalos determinados para ver nuevas LUNs o volmenes. Esto tiene sentido ya que la mayora de SRAs son slo archivos de script. Tambin, mi experiencia me dice, que a veces simplemente haciendo un re-escaneo de la cabina tampoco es suficiente. 1. En el SRM del sitio de proteccin 2. Haga clic en el enlace Configure junto al Array Manager

3. Seleccione la entrada para Protection Stie Array Manager y seleccione Edit

201

4. Escriba el nombre de usuario y la contrasea utilizada para autenticarse con la cabina de almacenamiento y haga clic en Connect. A continuacin, y despus de haber completado la conexin, haga clic en Next

Repita este proceso para la cabina en el sitio de recuperacin 5. En el ltimo cuadro de dilogo haga clic en el botn Refresh Array - esto debe actualizar la cabina de almacenamiento y mostrar las nuevas LUN/Volmenes

202

Actualizacin de las asignaciones de inventario La actualizacin de las asignaciones de inventario, dependen de la configuracin que usted tena inicialmente y de cmo estas se han alterado. Por ejemplo, en mi caso, slo ha cambiado la configuracin de red. No he creado ningn resource pool o carpetas nuevas.

Crear un nuevo grupo de proteccin Por cada nuevo DataStore que usted crea, tendr que crear un nuevo grupo de proteccin para cubrir las mquinas virtuales. 1. En el SRM del sitio de proteccin 2. Seleccione el contenedor del Protection Group, y haga clic en el botn Create Protection Group

203

3. Escriba un nombre y una descripcin para el grupo de proteccin y haga clic en Next 4. Seleccione el nuevo DataStore que contiene las mquinas virtuales para protegerlas

204

Nota: Note como el volumen VMFS existente est atenuado y en cursiva. Esto se debe a que este volumen ya est cubierto por un grupo de proteccin existente. Al seleccionar los otros volmenes VMFS que convenientemente he llamado [newvirtualmachine] podemos ver las nuevas mquinas virtuales creadas en el nuevo almacenamiento. 5. Por ltimo, seleccione una ubicacin temporal para el almacenamiento del placeholder/shadow de las mquinas virtuales en el sitio de recuperacin

Advertencia: La seleccin de una LUN local para la ubicacin del archivo placeholder/shadow de la mquina virtual no es una gran idea. Qu pasa si el servido ESX no est disponible? Es mucho mejor crear un pequeo volumen no replicado en el sitio de recuperacin para almacenar estos archivos, al que puedan acceder todos los servidores ESX en el sitio de recuperacin. Actualizacin de planes de recuperacin Ahora que hemos terminado con la actualizacin en la configuracin del sitio de proteccin, es el momento de dirigir nuestra atencin a los planes de recuperacin. Nuestros planes actuales de recuperacin slo son conscientes de uno de nuestros grupos de proteccin, y los planes de recuperacin requieren una actualizacin, o simplemente estos no tendrn ninguna referencia a las nuevas mquinas virtuales.

205

1. En el SRM en el sitio de recuperacin 2. Elija su plan de recuperacin 3. Seleccione la opcin Edit Recovery Plan

4. Haga clic en Next para aceptar el nombre y descripcin de plan de recuperacin 5. Seleccione el nuevo grupo de proteccin para aadirlo a su plan de recuperacin

206

6. Despus de completar los requerimientos del plan de recuperacin, usted debera ver que el nuevo DataStore/grupo de proteccin est incluido en el plan, y que las mquinas virtuales cubiertas por el grupo de proteccin son agregadas a la lista de prioridad "normal" para el apagado/encendido de las mquinas virtuales.

Nota: Esta configuracin es cada vez ms cerca a algo parecido al mundo real. En realidad es probable que tenga muchas mquinas virtuales almacenadas en muchos volmenes VMFS. Despus de todo, una de las recomendaciones de VMware es la de distribuir los discos virtuales a travs de muchos Volmenes LUN VMFS con el fin de distribuir los I/O del disco para evitar una saturacin de las LUNs/Volmenes con excesivas lecturas/escrituras. Por supuesto, habr que tener mucho cuidado en la planificacin y creacin de la replicacin y los grupos de proteccin, para garantizar que todos los archivos que componen una mquina virtual se estn replicando y estn incluidos en el plan de recuperacin. Despus de todo, una mquina virtual medio completa no va a ser de gran utilidad en el caso de un desastre.

Storage VMotion y grupos de proteccin


VMware 3.5 ha liberado una nueva caracterstica denominada "Storage VMotion". Esto le permite trasladar los archivos de una mquina virtual de un DataStore a otro, mientras que la mquina virtual est encendida, independientemente del tipo de almacenamiento (NFS, iSCSI, SAN) y del proveedor. Actualmente, Storage VMotion se lleva a cabo mediante el uso de secuencia de comandos con el RCLI que

207

se puede descargar desde la pgina web de VMware. Si bien la mquina virtual en el servidor ESX no es alterada, sus archivos sern movidos, y esto puede tener y, de hecho tiene consecuencias, para VMware SRM. Bsicamente, hay tres escenarios: Escenario 1: La mquina virtual es movida desde una LUN no replicada a otra LUN que se est replicando Escenario 2: La mquina virtual es movida desde una LUN que se est replicando a otra LUN que no se est replicando y por tanto ya no est cubierta por SRM Escenario 3: La mquina virtual es movida desde una LUN que se est replicando a otra LUN replicada por lo que la mquina virtual se mueve fuera del mbito de aplicacin de un grupo de proteccin a otro grupo de proteccin

Permtame explicarle y mostrare lo que ocurre en cada uno de los escenarios. El escenario 1 es muy sencillo, pues es una nueva mquina virtual de se acaba de crear. El grupo de proteccin tendr un signo de exclamacin amarillo que indica que la mquina virtual no tiene configurado su grupo de proteccin. En la pantalla siguiente, he creado una mquina virtual llamada web-3 y la he metido en una particin local de almacenamiento. Despus, con Storage VMotion he movido la maquina virtual a un volumen VMFS llamado "virtualmachines2"

En el escenario 2, el resultado es algo desordenado. La eliminacin de una mquina virtual en una LUN/volumen de almacenamiento replicada, producir un mensaje de error en la pestaa de eventos y, la mquina virtual en el grupo de proteccin, se listara como "invalid"

208

Con el escenario 3, he visto mensajes de error similares. En este caso, la mquina virtual se traslada de un grupo de proteccin a otro pero hay que "eliminar" la maquina virtual del grupo de proteccin antiguo. En las pantallas siguientes se muestra el error:

En general, si el grupo de proteccin no re-configura correctamente el almacenamiento, seleccionando la mquina virtual "invlida" y haciendo clic en la opcin "Remove Protection" arreglara el error. En el caso del escenario 3, me he encontrado que primero he tenido que hacer clic en "Remove Protection" antes de seleccionar "Configure Protection" en el grupo de proteccin nuevo.

209

Mquinas virtuales almacenadas en mltiples Datastores VMFS


Por supuesto, es posible almacenar archivos de mquinas virtuales en ms de un DataStore VMFS. De hecho, si usted conoce bien Vi3, sabr que en la realidad es una recomendacin de VMware. Al almacenar nuestro disco de arranque, los logs, y los datos VMDK en diferentes LUNs, podremos mejorar la E/S del disco sustancialmente, reduciendo por consiguiente la contencin en los discos. Incluso los discos de la mquina virtual ms intensos, podran ser almacenados en una LUN propia a tal efecto, y como tal, no tendra ningn tipo de contencin de E/S a nivel de disco fsico. Por tanto, le complacer saber que SRM es compatible con una configuracin de disco mltiple, siempre y cuando todos los datastores que la mquina virtual este utilizando, se repliquen en el sitio de recuperacin. La ubicacin del volumen VMFS del disco virtual es controlada por el asistente "Add" cuando se aaden discos a la mquina virtual.

Estos discos virtuales aparecen sin problemas en el sistema operativo invitado, por lo que desde Windows o cualquier otro sistema operativo invitado soportado, es imposible ver donde se encuentran fsicamente los discos virtuales. En la situacin anterior, he aadido otro volumen del VSA Lefthand Networks llamado "datavirtualmachines" para empezar a poner los discos de datos de las mquinas virtuales en el nuevo disco, como se muestra a continuacin:

210

Todo lo que hice despus, fue asegurarme de que el volumen VMFS "datavirtualmachines" se replicara exactamente en el mismo intervalo que mi volumen VMFS llamado virtual machines. Si usted tiene grupos de proteccin existentes, estos se actualizarn automticamente para reflejar el hecho de que las mquinas virtuales estn utilizando ahora mltiples datastores. Ver esto, si crea nuevos grupos de proteccin para cubrir los nuevos volmenes VMFS. En la pantalla de abajo, usted puede ver como mi "grupo de proteccin de la mquina virtual", se ha actualizado para reflejar que hay mquinas virtuales en el volumen VMFS [virtualmachines], que tambin tienen archivos VDMK almacenados en [datavirtualmachines]:

Si usted est creando un grupo de proteccin nuevo, ver incluidos ambos volmenes VMFS, si las mquinas virtuales estn usando ms de un DataStore VMFS:

211

Todo esto est muy bien. Sin embargo, pueden surgir problemas si estas relaciones entre el disco virtual y el DataStore cambian, despus de haber creado los grupos de proteccin. Digamos que tiene dos volmenes VMFS diferentes, en dos grupos de proteccin, y de momento no hay ninguna mquina virtual que use ambos grupos de almacenamiento. Usted se puede preguntar, qu pasara si despus de que ha creado estos grupos de proteccin, modific una mquina virtual de manera que abarc los dos grupos de proteccin? Eso es lo que he hecho en la situacin siguiente. Tengo dos grupos de proteccin y, cada uno, est asignado a un solo DataStore. Uno se llama "grupo de proteccin de la mquina virtual" (que contiene un volumen VMFS llamado virtualmachines) y el otro se llama "segundo grupo de proteccin de la mquina virtual" (que contiene un volumen VMFS llamado secondvirtualmachines). Este tiene dos mquinas virtuales llamadas ctx-2 y web-3, como se muestra en la pantalla a continuacin:

Despus, he modificado las propiedades de ctx-2 aadiendo un segundo disco dentro del "grupo de proteccin de la mquina virtual". El efecto de esto es bastante notable. En primer lugar, el "segundo grupo de proteccin de la mquina virtual", se cambio a "invalid" y fue marcado con un signo de exclamacin rojo a pesar de que la maquina virtual web-3 no se haba modificado y segua estando tcnicamente en el mismo grupo. El segundo efecto, fue que web-3 y ctx-3 fueron

212

trasladados fuera de su grupo original de proteccin y aadidos a otro grupo de proteccin.

Aunque el efecto de esto no es bonito de ver, en cierta manera tiene sentido y es fcil de "corregir". Como ahora tenemos una mquina virtual que se extiende por ms de un volumen VMFS, los dos volmenes VMFS forman parte ahora del mismo grupo de proteccin (como hemos visto anteriormente en esta seccin). Lo que es desagradable, no slo la eliminacin del grupo de proteccin invalido, si no que se dejan objetos hurfanos con un preocupante signo de exclamacin rojo. La otra cuestin es que todas las mquinas virtuales, que una vez estuvieron protegidas, se quedan sin proteccin y estas tendrn que ser protegidas de nuevo y colocadas en el plan de recuperacin correcto. Para limpiar este escenario, usted debe borrar el grupo de proteccin no vlido. Si usted no lo hace, recibir un mensaje tipo "This virtual machine is already protected" cuando intente configurar la proteccin en las maquinas no configuradas.

213

Una vez que el grupo de proteccin antiguo se ha eliminado, puede configurar el grupo de proteccin para las mquinas virtuales que cambiaron de ubicacin. Usted podra preguntarse sobre cul es la lgica de marcar el grupo proteccin como no vlido, y el desplazamiento de las mquinas virtuales a otros grupos de proteccin?. No he podido comprobar esto al 100%, pero creo que se basa en la creacin del grupo de proteccin, el ms antiguo es seleccionado en funcin de su valor MOREF (Managed Object Reference).

Mquinas virtuales con dispositivos en bruto/ asignaciones de disco


En este libro, yo empec con un nico volumen VMFS y LUN en el sitio protegido. Es evidente que esta es una configuracin muy simple, la cual fue elegida deliberadamente para mantener nuestro enfoque en el producto SRM. Quiero ahondar, en mayor detalle, en las configuraciones ms avanzadas, como las caractersticas de VMware RDM (Raw Device Mappings) y configuraciones de disco mltiples, que reflejan ms de cerca el mundo real y el uso de las tecnologas de VMware. En este momento, me enfrento un poco con un dilema. Mi dilema es el siguiente: debera repetir la seccin de almacenamiento de nuevo para demostrar el proceso de creacin de una LUN/volumen en la cabina de almacenamiento?. Tambin, debera documentar el proceso de agregar un disco RDM a una mquina virtual?. Al final pens, que si usted como lector, ha llegado hasta aqu en la libro, usted debera ser capaz de volver a la seccin de almacenamiento de esta libro y hacerlo por su cuenta. Por ejemplo, he aadido un disco RDM a mi mquina virtual ctx-1.

214

El tema importante a destacar aqu, en la segunda pantalla de la mquina virtual, es la sintaxis de la vmhba RDM en la MV protegida. Esto dice que el camino es vmhba32: 1:0:0. Quiero centrarme en las cuestiones especficas de cmo SRM maneja adiciones de nuevas instalaciones de almacenamiento en el sistema y la forma en la que se maneja la funcionalidad RDM. Despus de crear el nuevo volumen/LUN, configurar

215

la replicacin y aadir el disco RDM a la mquina virtual, el siguiente paso es asegurarse que el Array Manager ha descubierto el nuevo RDM. Vale la pena comentar un hecho sobre RDMs y SRM. SRM resuelve dos "problemas" con RDM. Los archivos de asignacin RDM tienen dos valores, uno es el LUN ID y otro es el SCSI ID. Estos valores almacenados con el propio archivo de mapeo, es ms probable que sean totalmente diferentes en la cabina del sitio de recuperacin. SRM fija estas referencias para que la mquina virtual pueda arrancar y usted pueda ver sus datos. Si usted no estuviera usando SRM y estuviera ejecutando su plan de recuperacin de forma manual, tendra que eliminar el archivo de asignacin RDM y aadirlo a la mquina virtual de recuperacin. Si no hace esto, cuando la mquina virtual replicada fuese encendida, esta apuntara al ID SCSI y LUN ID errneos.

Note en esta pantalla de una mquina virtual de "recuperacin", que el mapeo ha sido "corregido" por SRM y contiene la sintaxis vmhba correcta de vmhba32: 18.0.0. Si un nuevo volumen se crea, ya sea un volumen VMFS o volumen RDM, es importante re-escanear la configuracin de la cabina en el sitio protegido para asegurarse de que esta es descubierta por SRM y SRA. 1. Inicie sesin con el cliente Vi en el vCenter del sitio protegido 2. Haga clic en el icono Site Recovery 3. En la pestaa Summary, en el panel Protection Setup - haga clic en Configure al lado de Array Managers Option 4. Haga clic en Next 5. Haga clic en Next otra vez 6. En el cuadro de dilogo Review Replicated Datastores, haga clic en el botn Rescan Arrays

216

Nota: En el asistente "Array Manager" de SRM, debera ver que el RDM replicado aparece en la lista:

Nota: Es posible que desee saber qu sucede si crea una nueva mquina virtual que contiene una mapeo RDM a una LUN que no se replica. Si usted trata de proteger dicha mquina virtual, SRM se dar cuenta de que usted est

217

tratando de proteger una mquina virtual que tiene acceso a una LUN/volumen que es inaccesible en el sitio de recuperacin. Cuando intenta agregar esa mquina virtual al grupo de proteccin se encontrara con este mensaje de error:

He creado este error en CTX-1, cuando seleccione una LUN/volumen que no se estaba replicando a mi sitio de recuperacin. Y he resuelto el problema seleccionando la LUN correcta. Este mismo error se puede producir si el Array Manager no puede encontrar el RDM replicado despus de un "rescan" de la cabina". El error tambin puede ocurrir si tiene una VM con muchos archivos VMDK almacenados en LUNs que no se est replicando.

Mltiples grupos de proteccin y mltiples planes de recuperacin


Esta seccin es bastante corta, pero puede ser la ms importante para usted. Ahora que usted tiene una idea muy buena de todos los componentes de SRM, es el momento para m de demostrarle lo que es una configuracin muy popular en el mundo real. Es perfectamente posible, de hecho yo dira que es muy conveniente, disponer de muchos grupos de proteccin y planes de recuperacin. Si recuerda, un grupo de proteccin est ntimamente relacionado con las LUNs/volmenes que usted esta replicando. Un modelo de esto, que ya se sugiri anteriormente en el libro, es la agrupacin de sus LUNs/volmenes por el uso de aplicaciones para que estas puedan ser fcilmente seleccionadas por un grupo de proteccin en SRM. He creado esta situacin en mi entorno de laboratorio para darle una idea de cmo son este tipo de configuraciones. No tengo la intencin de que reproduzca esta configuracin si ha seguido este libro paso a paso. Es solo para darle una idea de cmo es una configuracin de SRM en "produccin". Mltiples DataStores En el mundo real es muy probable que usted ponga sus mquinas virtuales en diferentes datastores para reflejar que esos LUNs/volmenes representan un nmero de discos y niveles de RAID diferentes. Para reflejar este tipo de configuracin, he creado cinco volmenes llamados ad, Citrix, file, sql y web en el VSA Lefthand Networks.

218

Volmenes con formato VMFS En vCenter, he re-escaneado cada unos de mis servidores ESX y, a continuacin, he procedido a formatear estos volmenes con formato VMFS, usando nombres de volumen y DataStore que reflejan su funcionalidad.

Adems, he vuelto a ejecutar el asistente "Array Managers" en el sitio protegido para garantizar que SRM es consciente de que estas LUNs/volmenes se replicaron y contienen las mquinas virtuales.

219

Actualizacin y reestructuracin de la estructura de resource pools y carpetas En el sitio protegido y el sitio de recuperacin, he reconfigurado mi carpeta y resource pools, a fin de reflejar el hecho de que estos sistemas diferentes requieren diferentes lmites y reservas para garantizar que funcionan con un rendimiento aceptable. A su vez, esta estructura de carpetas y resource pools se duplic en el sitio de recuperacin. En el sitio de proteccin:

220

En el sitio de recuperacin:

Como consecuencia, mi "asignaciones de inventario" necesitaron ser actualizadas para reflejar esta nueva estructura de carpetas y resource pool.

Mltiples grupos de proteccin Los cambios en el almacenamiento descritos en esta seccin, se reflejaron en los grupos de proteccin que he creado. Ahora tendr cinco grupos de proteccin que reflejan los cinco tipos de mquinas virtuales. Cuando cree el grupo de proteccin de Citrix, seleccione el volumen VMFS de Citrix que cree para esa aplicacin.

221

Si seguimos esto a su conclusin lgica, acabaremos creando cuatro grupos de proteccin para cada uno de mis volmenes VMFS replicados.

Mltiples planes de recuperacin Estos mltiples grupos de proteccin, ahora permiten mltiples planes de recuperacin. Por lo tanto, en el caso de prdida completa del sitio, yo podra ejecutar un nico plan de recuperacin que incluye a todos mis grupos de proteccin de la manera siguiente:

222

o, alternativamente, podra tener una serie de planes de recuperacin que podra ejecutar en cualquier orden que quisiera, o simplemente utilizarlos para probar un failover de un conjunto de aplicaciones en particular.

Al final de este proceso, tendr una serie de planes de recuperacin que se podra utilizar para cada una de las aplicaciones y tambin para poner a prueba un plan de recuperacin completo. Sera muy probable que en este caso, cada plan de recuperacin tuviera que ejecutar una recuperacin de mis controladores de

223

dominio, pues tener el dominio de Windows disponible es un eje fundamental en la mayora de las organizaciones.

Resumen Como puede ver, la forma ms poderosa y sensata de utilizar SRM, es asegurarse de que diferentes mquinas virtuales, que reflejan los grandes componentes de la infraestructura en la empresa, estn separadas a nivel de almacenamiento. Desde una perspectiva de SRM, esto significa que podemos separarlas lgicamente en distintos grupos de proteccin y, a continuacin, utilizar los grupos de proteccin en nuestros planes de recuperacin. Es infinitamente ms funcional, que usar un solo volumen VMFS global y slo uno o dos planes de recuperacin. La intencin en esta seccin, no fue tratar de cambiar mi configuracin, sino ilustrar lo que es una configuracin de SRM en el "mundo real". Pude hacer todos estos cambios sin tener que recurrir a apagar las mquinas virtuales, mediante el uso de Storage VMotion, para reubicar a mis mquinas virtuales en la nueva LUNs/Volmenes.

El botn reparacin del Array Manager


Si selecciona los planes de recuperacin en el SRM del sitio de recuperacin, ver que usted tiene un botn "Repair Array Managers":

Al igual que yo, usted podra encontrar este botn algo curioso, ya que la configuracin Array Managers se fija en el sitio protegido y no en el sitio de recuperacin. Puede que como yo, usted se pregunte en qu circunstancias la cabina tiene que estar para necesitar la "reparacin" como tal. Me llev algn tiempo averiguar un caso de uso de esta caracterstica, porque esto no est especialmente incluido en la documentacin de VMware, aunque esto es muy probable que cambie.

224

Este botn no repara la cabina de almacenamiento, sino que le permite reparar la configuracin de la comunicacin de la cabina con el sitio de recuperacin. Supongamos que el sitio protegido ha desaparecido debido a una catstrofe. Usted entonces se mueve al sitio de recuperacin para invocar su plan de recuperacin, slo para descubrir que hay un error en la configuracin del SRM/SRA que se comunica con la cabina de almacenamiento en el sitio de recuperacin. Ejemplos de esto incluye: La primera IP utilizada para comunicarse con la cabina es buena, pero la primera controlador no est disponible. Cuando el SRA va a utilizar la segunda controladora, falla porque el administrador SRM escribi mal el IP o, de hecho, falla en escribir la direccin IP especifica. Una persona en el sitio de recuperacin ha cambiado la direccin IP utilizada para comunicar con el almacenamiento en el sitio de recuperacin, sin informar al administrador de SRM. Una persona en el sitio de recuperacin ha cambiado el nombre de usuario o la contrasea utilizada para autenticarse con la cabina.

Al hacer clic en el botn Repair Array Managers, se abrir un cuadro de dilogo estndar del "Array Managers" en el SRM del sitio de recuperacin, el cual le permitir corregir estos problemas. Usted no necesitara utilizar esta interfaz, si la cabina del sitio protegido esta dispone, como es el caso en una situacin planificada de DR.

Conclusin
Para m este es uno de los captulos ms grandes porque realmente muestra lo que el SRM es capaz y, quizs tambin, donde se encuentran sus limitaciones. Una cosa que me pareci un poco molesto es que no hay opcin de arrastrar y soltar para reordenar mquinas virtuales en una lista de prioridades y, el hacer clic en las flechas de arriba y abajo para cada mquina virtual llega a ser bastante molesto. Espero que haya cogido una buena idea sobre la gestin a largo plazo en SRM. Despus de todo, las mquinas virtuales no son automticamente protegidas por el simple hecho de ser almacenadas en volmenes VMFS replicados. Adems, vimos cmo otros cambios en el sitio de proteccin tienen un impacto en el servidor SRM, como cambiar el nombre del datacenter, clusters, carpetas, redes y datastores, y en la mayor parte, el SRM hace un buen trabajo mantenimiento los metadatos actualizados en el sitio de recuperacin. Tal vez, merezca la pena destacar las dependencias dentro del producto SRM, especialmente entre los grupos de proteccin y planes de recuperacin. Como ha podido ver, la eliminacin de los grupos de proteccin es un poco peligrosa, a pesar de la relativa facilidad con que pueden ser re-creados. Esto desprotege todas las mquinas virtuales afectadas por el grupo de proteccin y elimina las maquinas virtuales de sus planes de recuperacin. La recreacin de todos los grupos de proteccin no pone las mquinas virtuales en su ubicacin original, lo que obliga a recrear todos los ajustes asociados con sus planes de recuperacin. Lo que se podra hacer con los planes de recuperacin, es tener una forma de exportar e importar estos. De modo que, esas configuraciones no se perderan. De hecho, sera bueno tener una funcin de copia para los planes de recuperacin para poder crear cualquier nmero de planes base y poder establecer todos los posibles enfoques para la creacin de un plan de DR.

225

Espero que haya visto que hay una serie de eventos diferentes que pueden ocurrir, a los que SRM puede reaccionar con distintos grados de automatizacin. Como se ver en el prximo captulo, es posible configurar alarmas que digan si hay una mquina virtual que necesita proteccin.

226

Captulo 7: Alarmas, Exportando el Histrico y el Control de Acceso

227

Usted se pondr muy contento de saber que, a diferencia de vCenter, SRM tiene un gran nmero de alarmas configurables y tambin una funcin de informacin muy til. Las alarmas vienen bien definidas y con un montn de condiciones que podemos controlar y cambiar. Esta es una mejora muy esperada de los productos de VMware, que en el pasado han tenido, bastante limitada, la funcionalidad de presentacin de informes de alarmas. La accin que podemos ejecutar en caso de una alarma que se activa, es todava muy limitada; enviar un correo electrnico, enviar una trama SMNP o ejecutar un script. Quizs valga la pena destacar algo muy obvio; SMTP y SNMP son servicios de red. Estos servicios pueden no estar disponibles durante un desastre real y como tal es posible que no desee depender demasiado de ellos. Adems, usted encontrar que SRM, no tiene una pestaa de "eventos" propia. En su lugar, SRM incluye los eventos en el log de eventos de diario. Si ha asignado roles y permisos utilizados para SRM, debera ser capaz de filtrar estas cuentas, por lo que debera mejorar su trazabilidad. Despus de que haya explicado el "Control de acceso" (Access Control), incluir algunas pantallas de filtrado/bsqueda para ilustrar lo que quiero decir.

Descripcin alarmas
Las alarmas abarcan una amplia gama de posibles acontecimientos, incluyendo, pero no limitado, a las condiciones siguientes: Recursos disponibles bajos o de disco o CPU o Memoria Situacin del sitio de recuperacin o el sitio de recuperacin SRM esta encendido/apagado o No es posible hacerle un ping o Creado/Borrado Creacin de grupos de proteccin y mquinas virtuales Shadow Estado de los planes de recuperacin o Creado o Destruido o Modificado o a la espera de mensajes Estado de la licencia Estado de los permisos Conectividad SAN Nota: Los umbrales de alarmas para el disco, CPU y memoria no se establecen dentro de la GUI, sino en el archivo vmwar-dr.xml. Como era de esperar, algunas de las alarmas son ms tiles que otras y pueden, en algunos aspectos, facilitar la correcta utilizacin o la configuracin del producto SRM. Existen algunos casos notables. Usted se dar cuenta de que tanto, el sitio de recuperacin como el sitio de proteccin, tienen las mismas alarmas, con lo que la configuracin de ambos sitios sera adecuada en una configuracin bidireccional. He aqu algunos ejemplos Ejemplo1: La creacin de una nueva mquina virtual en un volumen VMFS que no se replica automticamente, no aade la mquina virtual al grupo proteccin ni al

228

plan de recuperacin. Un correo electrnico al administrador del SRM podra ser til para que el administrador lleve a cabo las acciones apropiadas. Ejemplo 2: Aunque los planes de recuperacin tienen una caracterstica de notificacin de mensajes, slo ver el mensaje si tiene abierto el cliente Vi con el plug-in de "Site Recovery Manager". Tambin sera conveniente enviar un correo electrnico a la persona. Ejemplo 3: El hecho de no recibir un ping o respuesta desde el sitio de recuperacin, podra ser un indicio de una mala configuracin del producto SRM Ejemplo 4: SRM requiere conectividad SAN, y ciclos de replicacin fiable. El fallo en la capa de almacenamiento, puede provocar la uso del Plan DR o indicar un error de configuracin. No tiene sentido tener SRM funcionando, cuando la cabina de almacenamiento ha fallado. Creacin de una nueva mquina virtual que debe protegerse con una alarma (Script) Nota: A diferencia de los scripts ejecutados en el plan de recuperacin, los scripts son ejecutados, bien por el vCenter del sitio protegido, o bien por el vCenter del sitio de recuperacin. Como tales, los scripts deben ser creados y almacenados en el vCenter responsable del evento. Este puede ser identificado por el uso de la palabra "protegido" o "recuperacin" en el nombre del evento. 1. En el sitio protegido, haga clic en el botn SRM 2. Seleccione la pestaa de alarma y haga doble clic en la alarma llamada VM Added

3. En el cuadro de dilogo Edit Alarm, seleccione la pestaa Actions 4. Haga clic en el botn Add 5. De la lista desplegable, seleccione Run a Script y escriba: C:\Windows\System32\cmd.exe /c c:\newvmscript.bat

229

Nota: Una condicin puede tener muchas acciones, as que es posible crear una condicin que enva un correo electrnico, una trama smnp y ejecutar un script. 6. En el sitio protegido, cree un script llamado newvmscript.bat, con este contenido: @ echo off net send 192.168.2.198 Una nueva mquina virtual se ha creado en el sitio de proteccin. Los grupos de proteccin necesitaran incluir la actualizacin de esta nueva mquina virtual en sus planes de recuperacin. Nota: Este script slo se dise a modo de ejemplo. Yo no recomiendo el uso del servicio Messenger en produccin. Creacin de un mensaje de alarma (SNMP) 1. En el sitio de recuperacin, haga clic en el botn SRM 2. Seleccione la pestaa de alarma y haga doble clic en la alarma llamada Recovery Profile Prompt Display

3. En el cuadro de dilogo Edit alarm, seleccione la pestaa de Actions 4. Haga clic en el botn Add 5. De la lista desplegable, seleccione Send notification trap Nota: Por defecto, si usted ejecuta una herramienta de administracin SNMP en el vCenter en la comunidad "publica", recibir las notificaciones. Para probar esta funcionalidad, he usado la utilidad gratuita llamada TrapReceiver.

230

VMware tambin usa esta utilidad en sus cursos de formacin para probar/demostrar la funcionalidad SMNP sin necesidad de configurar algo ms complicado como HP Openveiw. http://www.trapreceiver.com/ La imagen adjunta muestra el resultado de dicha alarma enviando tramas al Receptor.

231

Creacin de un servicio de alarma SRM (SMTP) 1. En el sitio protegido, haga clic en el botn SRM 2. Seleccione la pestaa de alarma y haga doble clic en la alarma llamada Remote Site Down y Remote Site Ping Failed

3. En el cuadro de dilogo Edit Alarm, y seleccione la pestaa de Actions 4. Haga clic en el botn Add 5. De la lista desplegable, seleccione Send a notification email, y en el tipo seleccione destination/recipient email

232

Nota: En el cuadro de edicin, escriba una direccin de correo electrnico de un individuo o un grupo que quiere que reciba el mensaje de correo electrnico. Una vez ms, la configuracin del servicio SMTP se encuentra en el men Administracin del vCenter, bajo la seccin SMNP del cuadro de dilogo.

233

Nota: Los mensajes de correo electrnico sern enviados cuando el mensaje "Not Responding" aparece en la pestaa Summanry de SRM.

Nota:

234

Los mensajes de correo electrnico reales producidos con esta alarma puede ser un poco "crpticos", especialmente en la parte que dice "Old Status" y "New Status", pero hacen su funcin como se puede ver a continuacin:

Exportando & Historia


Es posible exportar un plan de recuperacin desde el SRM y, tambin exportar los resultados de un plan de recuperacin. El proceso de exportacin puede incluir los siguientes formatos: Word Excel Pgina Web CSV XML

Aunque los planes de recuperacin pueden ser "exportados" fuera del SRM, estos no pueden ser importados en el SRM. La intencin del proceso de exportacin, est

235

en la posibilidad de darle una "copia" del plan de recuperacin para que lo pueda compartir y distribuir sin que necesariamente estas personas necesiten acceso al SRM. Advertencia: Por defecto, SRM est tratando de abrir el archivo exportado en el lugar donde usted est ejecutando el cliente Vi. Si el sistema donde est ejecutando el cliente Vi Cliente, no dispone de Microsoft Word/Excel, este proceso de exportacin fallara. No obstante el plan se exporta, pero el sistema no podr a abrir el archivo. En mis experimentos con Microsoft Word Viewer 2007 funciono, pero con Microsoft Excel Viewer 2007 no fue as. Adems, Microsoft Excel View no puede abrir el formato CSV de forma adecuada. Me pareci que necesitaba la versin completa de Excel para abrir estos archivos con xito. El archivo XLS viene con el formato de excel, pero como era de esperar el fichero CSV no viene con ningn formato.

Exportacin de planes de recuperacin 1. En el SRM del sitio de recuperacin, seleccione su plan de recuperacin 2. Haga clic en el icono Export Recovery Plan

3. Desde el cuadro de dilogo Save As, seleccione el tipo de formato

236

Nota: El resultado del plan exportado se parece a esto:

Plan de Recuperacin de Historia SRM tiene una pestaa de historia (history), la cual muestra el xito, fallo, y resmenes de error y, le permite ver ejecuciones anteriores del plan de recuperacin en formato html, o exportarlos a otros formatos, como se indic anteriormente. 1. En el SRM del sitio de recuperacin, seleccione un plan de recuperacin 2. Haga clic en la pestaa History, seleccione una ejecucin previamente de un plan de recuperacin y haga clic en View o Export

Nota: En la pantalla siguiente, he mostrado la historia de uno de mis resultados de error en formato html.

237

Control de Acceso
Los permisos, control de acceso y gestin del cambio, son parte integrante de la mayora de los entornos corporativos. Hasta ahora, y para todas las tareas, hemos estado utilizando la cuenta de "administrador" por defecto en la gestin de SRM. Esto no es slo poco realista, sino que tambin es muy peligroso, especialmente en el mbito de DR. El DR es una "empresa peligrosa" y no debe ser activado accidentalmente o a la ligera. Con los permisos correctamente configurados, debera permitir al producto ser configurado y probado por separado, de un proceso real de invocacin de DR. Aunque se trata de una decisin ejecutiva de muy alto nivel, la gestin del proceso debe estar en manos de personal de TI muy competentes, capacitados y bien pagados. SRM introduce toda una serie de nuevos roles en vCenter y, como los derechos y privilegios del vCenter, el SRM muestra la misma naturaleza "jerrquica" que el vCenter. Una capa adicional de complejidad se aade al tener dos sistemas de vCenter (el vCenter del sitio protegido y en el sitio de recuperacin), que se delegan por separado. Vale la pena decir que, en una configuracin bidireccional, que estos permisos tienen que ser mutuamente recprocos, para permitir a las personas adecuadas llevar a cabo sus tareas adecuadamente. Al igual que con las acciones de las alerta, el control de acceso se basa en la autenticacin de los servicios. Para muchos esto significa Microsoft Active Directory y el DNS de Microsoft. Si estos servicios no estn disponibles o no funcionan, no podr ni siquiera ser capaz de acceder al vCenter para activar su plan de recuperacin. Es necesario una adecuada planificacin y preparacin de estos servicios para evitar que esto ocurra y, puede quizs desear desarrollar un Plan B, donde un plan de recuperacin podra ser activado incluso sin la necesidad de Active Directory de Microsoft. Dependiendo de sus polticas de empresa, esto podra incluir el uso de controladores de dominios fsicos o virtuales, los cuales no estn incluidos en el producto SRM. Los nuevos roles de Site Recover Manager(SRM) son: Protection Groups Administrator Protection SRM Administrator

238

Protection Virtual Machine Administrator Recovery DataCenter Administrator Recovery Host Administrator Recovery Inventory Administrator Recovery Plans Administrator Recovery SRM Administrator Recovery Virtual Machines Administrator

En el momento de escribir este libro, haba poca informacin acerca de los privilegios asignados a estas funciones. No obstante, puede fcilmente averiguarlo, haciendo clic en cada role y comprobando los privilegios a mano, pero creo que hacer esto, con el fin de incorporarlos en este libro, sera bastante tedioso. En lugar de ello, pienso que podra ser ms valioso para nosotros pensar sobre los cambios que se producen en el entorno de SRM para que nos ayude a reflexionar sobre los privilegios necesarios. En el caso que se produzcan nuevas instalaciones de almacenamiento, se debera crear un nuevo grupo de proteccin. Del mismo modo, al crear nuevas mquinas virtuales, estas deben estar correctamente configuradas para su proteccin. Tambin queremos permitir a alguien, crear, modificar y poner a prueba los planes de recuperacin, segn cambien nuestras necesidades. En el siguiente escenario, voy a crear cuatro usuarios - Brian, Ken, Carla y Daniel - y asignarles a un grupo en Active Directory llamado Administradores SRM. Despus, iniciare sesin como cada uno de estos usuarios para probar la configuracin y validare que cada usuario puede llevar a cabo las tareas diarias que tienen que hacer.

La configuracin permitir que estos cuatro usuarios gestionen una configuracin SRM unidireccional o activo/pasivo. En otras palabras, estos usuarios se limitarn simplemente a la creacin y ejecucin de planes de recuperacin en el sitio de recuperacin. En parte, lo que estoy reproduciendo en este libro, es un ejemplo de los permisos y derechos mencionados en la gua oficial de la administracin de VMware SRM. A continuacin, se muestra una tabla que resume los permisos necesarios para lograr esta configuracin. At the Protection Site Role Readonly Read-only Protection Virtual Machine

Location in VirtualCenter VirtualCenter Hosts & Clusters Datacenters VirtualCenter host level1

Propagate? NO NO YES

239

Administrator Protection SRM Administrator Protection Groups Administrator At the Recovery Site Role Recovery Inventory Administrator Recovery Datacenter Administrator Recovery Host Administrator Recovery Virtual Machine Administrator Recovery SRM Administrator Recovery Plans Administrator

Site Recovery Root SRM Protection Groups

NO Yes

Location in VirtualCenter VirtualCenter Hosts & Clusters Datacenters VirtualCenter host level Resource pools and VirtualCenter folders2 Site Recovery Root SRM Recovery Plans level

Propagate? NO NO NO YES NO YES

1. Any object containing ESX hosts such as a cluster or folder. Use this method rather than setting the permission on per ESX host basis 2. I think much depends on how you structure your resource pools and folders. Do you create resource pools within resource pools; do you have a top-level folder from within which all other folders are created; are you using resource pools with DRS, as such perhaps you could set this privilege on the cluster (aka the root resource pool)

Como puede ver, hay un nmero significativo de los roles que hemos de utilizar (7 en total) en diferentes lugares (7 en total) y que algunos requieren la "herencia" o "propagacin" (4), aunque la mayora no lo necesitan (7). Sera muy interesante tener en SRM, una funcionalidad tipo "asistente de delegacin", que permita establecer estos por nosotros! Advertencia: Como puede ver, los derechos de usuarios de SRM no son de por s suficientes. Si usted slo tiene derecho a parte del SRM en vCenter, ni siquiera ser capaz de iniciar sesin a travs del cliente Vi. Usted tendr que conceder a sus usuarios y grupos, al menos, derechos de "Read Only" en alguna parte del inventario de vCenter para que el proceso de login tenga xito. Configuracin de un grupo Administrador SRM (sitio de proteccin) 1. Entrar en el vCenter del sitio protegido 2. Seleccione vCenter Host & Clusters nodo, y haga clic en la pestaa Permissions

3. Haga clic con el botn derecho debajo de los administradores y seleccione Add Permissions 4. A continuacin, haga clic en Add button para aadir usuarios o grupos 5. Luego seleccione el role Read Only 6. IMPORTANTE: Desmarque la casilla de Propagate to Child

240

7. A continuacin, seleccione su datacenter(s), y asigne el role Read Only 8. IMPORTANTE: Desmarque la casilla Propagate to child

Nota: Si usted tiene muchos datacenters, quizs quiera incluir estos en carpetas, por lo que podra controlar los permisos ms eficientemente.

241

9. A continuacin, seleccione su clster DRS/HA, y asigne el role Protection Virtual Machine Administrator 10. PRECAUCIN: Deje seleccionada la opcin Propagate to child objects

Nota: A falta de un clster DRS/HA puede utilizar carpetas para agrupar los servidores ESX y evitar as el establecimiento de este permiso para cada servidor ESX. 11. Luego seleccione SRM View, seleccione Site Recovery nodo y seleccione el role Protection SRM Administrator 12. IMPORTANTE: Desmarque la casilla Progapate to child

13. Y por ltimo, dentro del vCenter en el sitio protegido, seleccione el proteccin grupo y asigne el role Protection Groups Administrador 14. PRECAUCIN: Deje seleccionada la opcin Propagate to child

MUY IMPORTANTE Espero que haya puesto los roles en la ubicacin correcta, con la opcin de fijar la herencia correcta! Lamentablemente, usted no ha terminado todava. Recuerda las personas que trabajan en el sitio de proteccin?, necesitan derechos en el sitio de recuperacin para crear y probar sus planes de recuperacin. Configuracin de un grupo administrador SRM (sitio de recuperacin) 1. Inicie sesin en el vCenter del sitio de recuperacin

242

2. Seleccione VirtualCenter Host & Clusters nodo para asignar el role Recovery Inventory Administrator 3. IMPORTANTE: Desmarque la casilla Propagate to child

4. Seleccione datacenter(s) y asigne el role Recovery DataCenter Administrator 5. IMPORTANTE: Desmarque la casilla Propagate to child

6. Seleccione clster(s) y asigne el role Recovery Host Administrator 7. IMPORTANTE: Desmarque la casilla Propagate to child

8. Seleccione resource pool(s) y folders para asignar el role Recovery Virtual Machine Administrator PRECAUCIN: Deje seleccionada la casilla Propagate to child objects

243

9. Luego seleccione SRM view, seleccione Site Recovery nodo y seleccione el role Recovery SRM Administrator 10. IMPORTANTE: Desmarque la casilla Propagate to child

11. Y finalmente, seleccione Recovery Plans nodo y asigne el role Recovery Plans Administrator 12. PRECAUCIN: Deje seleccionada la casilla Propagate to child objects

Nota: Eso es todo - ya esta! Ahora seguro que est probablemente deseando tener algn tipo de asistente de delegacin. Estoy de acuerdo con usted!!!

Probando sus permisos


Una cosa es configurar los permisos, y otra es verlos en accin. Personalmente, desde que empec en el mundo de TI, en los aos 90, siempre he creado una cuenta prueba con la que acceder para testear mis permisos. Es slo para estar 100% seguro y para garantizar que no hay sorpresas desagradables. Si usted configuro los permisos como lo hicimos con anterioridad, encontrara lo siguiente en el sitio protegido: No hay posibilidad de crear mquinas virtuales

244

No hay posibilidad de crear planes de recuperacin

Y en el sitio de recuperacin: Vistas restringidas slo para la recuperacin de mquinas virtuales

245

No hay posibilidad de crear grupos de proteccin

Algunas limitaciones en los permisos


Algo que puede querer hacer es, separar los privilegios de los planes de pruebas, de los planes de recuperacin en funcionamiento. Lamentablemente, aun cuando usted crea un role personalizado con "Recovery Plans Administrator", el privilegio de poder "ejecutar" los planes de recuperacin, incluyen tanto el proceso de prueba como el proceso de ejecutar. El nico privilegio que puede establecer es, el derecho de crear, modificar y eliminar planes de recuperacin, pero no incluye el privilegio de prueba o ejecucin. Las dos pantallas que aparecen a continuacin ilustran este punto:

246

Los archivos de registro de VMware SRM


Al igual que con todo el software, VMware SRM tiene archivos de registro internos. Estos archivos se encuentran en esta ruta del directorio siguiente: C: \ Documents and Settings \ All Users \ Application Data \ VMware \ VMware Site Recovery Manager \ Logs La intencin de estos registros o logs, no es para su uso diario, sino para usarlos como de soporte de VMware. Si usted tiene alguna vez, un problema grave con SRM que no puede resolver, a veces, buscar en estos archivos puede resultar ser muy til. El siguiente archivo de registro, muestra lo que sucede cuando dos mquinas virtuales que estn protegidas, fallan a causa de una asignacin de inventario no vlida. En el archivo de registro no se muestran nombres "amigables" del vCenter, sino ms bien los nombres menos "amigables" MOREF (Managed Object Reference ), los cuales se expresan en este formato - vm-275, network-288 y resgroup-895.

247

[2008-09-30 17:36:04.464 'DrInventoryMapper: site-28' 2820 verbose] Recommendation for VM 'vm-725': (dr.primary.MappingRecommendation) { [#3] dynamicType = <unset>, [#3] vm = 'vim.VirtualMachine:vm-725', [#3] folder = <unset>, [#3] networkRecommendations = (dr.primary.MappingRecommendation.NetworkRecommendation) [ [#3] (dr.primary.MappingRecommendation.NetworkRecommendation) { [#3] dynamicType = <unset>, [#3] primaryNetwork = 'vim.Network:network-288', [#3] secondaryNetwork = 'vim.Network:network-215', [#3] } [#3] ], [#3] resourcePool = 'vim.ResourcePool:resgroup-895', [#3] conflict = false, [#3] } [2008-09-30 17:36:04.464 'DrInventoryMapper: site-28' 2820 verbose] Recommendation for VM 'vm-727': (dr.primary.MappingRecommendation) { [#3] dynamicType = <unset>, [#3] vm = 'vim.VirtualMachine:vm-727', [#3] folder = <unset>, [#3] networkRecommendations = (dr.primary.MappingRecommendation.NetworkRecommendation) [ [#3] (dr.primary.MappingRecommendation.NetworkRecommendation) { [#3] dynamicType = <unset>, [#3] primaryNetwork = 'vim.Network:network-289', [#3] secondaryNetwork = 'vim.Network:network-214', [#3] } [#3] ], [#3] resourcePool = 'vim.ResourcePool:resgroup-895', [#3] conflict = false, [#3] } [2008-09-30 17:36:04.464 'DrInventoryMapper: site-28' 2820 verbose] Made recommendations for 2 VMs in 0 seconds El error especfico aqu, es que las dos mquinas virtuales estn en una carpeta que no haba sido asignada adecuadamente, y ello ha dado lugar a un signo de exclamacin amarillo en el sitio de proteccin y, por lo tanto, en fallo al crear los ficheros placeholder en el sitio de recuperacin.

Conclusiones
Como se ha podido ver, SRM extiende significativamente las alarmas del vCenter y las funcionalidades de informes y control de acceso. Y aunque las alarmas no pueden tener opciones configurables, usted puede ver en vCenter el gran nmero de alarmas o condiciones, lo que parece a veces un aspecto poco desarrollado en el producto de vCenter. Una vez ms, simplemente la capacidad de generar informes en SRM, sera de gran utilidad. Por un lado, la inversin en el producto vCenter por VMware est pagando dividendos, permitiendo que la capacidad de sus propios desarrolladores puedan ampliar su funcionalidad con plug-ins. De manera similar, las ediciones recientes de las aplicaciones de VMware estables, como VDM (Virtual

248

Desktop Manager), necesitan tambin unirse a la "fiesta". En este sentido, VMware SRM ha encendido una antorcha para que otros puedan seguir el camino. Llegamos ms o menos a la conclusin de este tipo de configuracin. Hasta ahora, este libro se ha adaptado a un escenario en el que su organizacin tiene un sitio dedicado exclusivamente para fines de recuperacin, y ahora quiero cambiar esta situacin en donde, dos centros de datos tienen CPU, memoria y capacidad de disco libre para que puedan corresponder a la recuperacin de ambos centros de datos. Una situacin en la que Chicago es el sitio de recuperacin de Nueva York, y Nueva York es el sitio de recuperacin de Chicago, o en donde Reading es el sitio de recuperacin de Londres, y Londres es el sitio de recuperacin para Reading. Para la gran empresa, esto ofrece la oportunidad de ahorrar mucho dinero, especialmente con las importantes y valiosas licencias de VMware.

249

Captulo 8: Configuraciones Bidireccionales

250

Hasta ahora este libro se ha centrado en una situacin en la que la recuperacin del sitio est dedicada a los efectos de la recuperacin y se podra fcilmente contratar espacio en rack suministrado por un tercero. Esto es muy popular en organizaciones ms pequeas, donde quizs slo tiene un centro de datos, o sus centros de datos son tan pequeos que no tienen los recursos necesarios para ser un centro de produccin y recuperacin al mismo tiempo. Al igual que ocurre con redundancias convencionales, este modelo de sitio de recuperacin "dedicado" no es especialmente eficaz ya que estamos "perdiendo" valiosos recursos financieros para protegernos de un evento catastrfico, que quizs nunca suceda. Al igual que con todas las plizas de seguros, el seguro del hogar y el seguro de su coche, esto es una prdida de dinero. Hasta que usted tiene la mala suerte de que se encuentra un da con que han robado en su casa y un ladrn roba su coche y lo quema. Debido al coste de licencias y otros costes asociados, es mucho ms eficiente "parear" dos o ms centros de datos para ofrecer recursos DR entre s. Esta configuracin se denomina en la documentacin oficial de VMware SRM, configuracin bidireccional. He dejado este tipo de configuracin para el final del libro, no porque pensara que la mayora de la gente no estara interesada, sino por tres razones principales. En primer lugar, quise aclarar al100% qu tareas se llevan a cabo en el sitio protegido (la vinculacin o pareado, Array Manager, asignacin de inventario), as como las tareas que se llevan a cabo en el sitio de recuperacin. En segundo lugar, los permisos son ms simples de explicar y probar en un sitio protegido convencional y en un sitio de recuperacin dedicado. Por ltimo, y a estas alturas, mi esperanza es que usted debera tener una muy buena comprensin de cmo funciona SRM y, por lo tanto, una configuracin bi-direccional no debera ser tan difcil de aadir a una configuracin unidireccional. Empec este libro utilizando nombres FQDNs para mis servidores, como protectedvc.rtfm-ed.co.uk y recoveryvc.rtfm-ed.co.uk. Mis intenciones originales fueron eliminar esta configuracin en favor de una convencin de nombres que reflejaran dos lugares distintos en el Reino Unido, Londres y Reading. Al final he decidido que esto sera una prdida de tiempo innecesaria. As que, simplemente mediante el cambio del nombre de los objetos en el inventario y, algunas modificaciones tipo "alias" en el DNS, debera ser capaz de hacer esto con la configuracin que ya tengo. Llmelo pereza, si usted quiere. Tambin, pens que si usted me haba estado siguiendo al pie de la letra, le gustara mantener su configuracin para slo convertir esta en una configuracin bidireccional. Dicho esto, en posteriores versiones de este libro y en funcin de su recepcin por los lectores de la Comunidad VMware, considerare la posibilidad de actualizar el contenido para hacer la captura de pantallas que reflejen ms claramente dos lugares distintos de produccin que ofrecen recursos DR entre s. En cuanto a la configuracin, es exactamente la misma que nuestra vinculacin de proteccin a recuperacin, pero invertida. En esta capitulo hice algunos cambios en el almacenamiento. Anteriormente, en el sitio de recuperacin slo tena acceso a volmenes replicados en el "ProtectedManagementGroup" y a una LUN "testvolume" para confirmar que el servidor ESX, en el sitio de recuperacin, puede comunicarse con mi cabina. He creado una nueva LUN/volumen en el RecoveryManagementGroup. Esta nueva LUN/volumen fue configurada para ser replicada en el "ProtectedManagementGroup", una vez por hora y, para mantener las instantneas

251

de tres ciclos. Para dejar esto claro, he llamado este volumen "bivirtualmachines" para indicar que se trata de un volumen que he configurado especficamente para una configuracin bidireccional. Usted puede ver esta configuracin en la captura de pantalla siguiente. Note que ahora la replicacin se est produciendo en el sentido opuesto.

Adems, he aadido este nuevo volumen a un volumen de la lista que configure anteriormente, llamado "testvolume", para asegurarme de que mi servidor ESX poda verlo. Usando mi cliente Vi, he re-escaneado mi servidor ESX y formateado este nuevo bloque de almacenamiento con VMFS. Despus, he asignado algunas maquinas virtuales a este volumen VMFS en una carpeta y resource pool en el inventario de vCenter. En resumen, he hecho algunos cambios significativos a la configuracin de vCenter. Quizs le gustara ver ahora esos cambios en vCenter:

252

Resumen: As se puede ver que estoy conectado al vCenter de London y Reading (LondonVC y ReadingVC). Esto no es ms que un poco de alias en DNS. En el LondonVC he renombrado las mquinas virtuales de ctx-1 a london-ctx-1. Esto se debe, principalmente para evitar cualquier confusin acerca de donde esta las mquinas virtuales fsicamente. Tambin he creado un resource pool en Londres llamado Readings VMs. Aqu es donde se almacenara el placeholder/shadow de las mquinas virtuales. Adems, en Reading, he creado un par de mquinas virtuales, reading-ctx1 como convencin de nomenclatura, sobre el resource pool Produccin. En esencia, el diseo y los nombres son los mismos en ambos vCenters. Usted podra notar que las mquinas virtuales en Londres llamadas ctx-3, web-3 han desaparecido. Bsicamente lo que paso es que me estaba quedando sin espacio en la cabina de almacenamiento, por lo que he tenido que eliminarlas del inventario. Hice algo similar en la vista Virtual Machines and Templates. La razn principal de esto es que para cuando convierta a London, el sitio de recuperacin de Reading, habr un objeto que podre utilizar para las asignaciones de inventario.

253

Resumen: As he creado una carpeta llamada "Reading's VMs" en el vCenter de London, como destino para el placeholder/shadow. En el vCenter de Reading, he creado un pequeo nmero de mquinas virtuales de prueba y las puse en una estructura de carpetas, similar a la configuracin de Londres.

Configuracin del Array Manager


Nota: Como los dos sitios ya estn vinculados, no hay necesidad de volverlos a vincular. Lo que debemos hacer es configurar la cabina de modo que, el SRA y el SRM en la localidad de Reading, sea consciente de los volmenes disponibles y cuales estn replicados. 1. Inicie sesin como administrador en el sitio de Reading 2. Haga clic en el icono SRM en la barra de herramientas 3. Junto a Array Managers, haga clic en el botn Configure

Nota: Note cmo no hay necesidad de vincular los sitios, ya que esto se ya ha hecho anteriormente en este libro. 4. En Protection Side Array Managers, haga clic en el botn Add

254

5. En el cuadro de dilogo Array Manager, escriba un nombre para este gestor, como Array Manager for Reading Site 6. Seleccione Lefthand Redes SAN / iQ como el tipo de administrador 7. Escriba la direccin IP de el VSA en el sitio protegido en el campo SAN/iQ Manager IP1, en mi caso este es mi sistema vsa2.rtfm-ed.co.uk con la direccin IP de 172.168.3.98

8. Escriba el nombre de usuario/contrasea 9. Haga clic en el botn Connect Nota: Esto debe conectar el servidor SRM con el VSA Manager y mostrar el nombre del grupo de gestin creado en el VSA

255

10. Haga clic en OK y haga clic en Next 11. Despus haga clic en el botn add para agregar la conexin con el VSA en Londres

256

12. Haga clic en Next y en Finish - el cuadro de dilogo debera mostrar que el SRM/SRA ha descubierto el volumen replicado de este modo:

257

Configurando las asignaciones de inventario


Como hicimos en la primera vinculacin (pairing), la etapa siguiente es configurar las asignaciones de inventario. No voy a repetirme aqu, ya que podra ser bastante tedioso y tambin porque lo que usted quiere mapear va a variar de una implementacin a otra. A continuacin, se muestra una captura de pantalla de mis asignaciones de redes, resource pools y carpetas en Reading, con los objetos del vCenter en London.

258

Creacin del grupo de proteccin


Una vez ms, la creacin de un grupo de proteccin no difiere sustancialmente de una configuracin bi-direccional.

Crear el plan de recuperacin


Una vez ms, los planes de recuperacin no difieren sustancialmente en una configuracin bi-direccional. En este caso, tengo que iniciar sesin en el servidor vCenter de Londres para crear un plan de recuperacin de las mquinas virtuales en Reading.

259

Mi configuracin bidireccional ya esta completada. Lo nico que hice fue hacer un cambio de nombre en los grupos de proteccin y planes existentes en el vCenter de Londres para hacer las cosas un poco ms consistentes.

Como parte de esta limpieza general, tambin cambie el nombre del volumen VMFS en Londres, para que fuese un poco ms significativo:

Conclusiones
Una vez que entienda los principios y conceptos de SRM, una configuracin bidireccional es realmente una extensin de esos mismos principios contemplados en los captulos anteriores. La nica complejidad est en entender las relaciones. Quizs en ocasiones se haya detenido en este captulo para aclarar las relaciones

260

entre los dos lugares, tanto en SRM como en la cabina de almacenamiento. Bien, usted no fue el nico. Yo hice exactamente lo mismo. Estuve tan "envuelto" en la visin de un sitio protegido y un sitio de recuperacin, que me llevo algn tiempo ajustar mi pensamiento para aceptar que cada sitio puede llegar a tener una doble funcionalidad. Por supuesto que siempre he sabido que poda hacer esto, pero la adaptacin a ese cambio, una vez que tiene el concepto de que el sitioA es el sitio protegido y que el sitioB es el de recuperacin, lleva un poco de tiempo. Lo que realmente me encantara ver en versiones posteriores es un icono especial para el placeholder/shadow de las mquinas virtuales, ya que por el momento se usa exactamente el mismo icono, por lo que no es inmediatamente evidente cul es cul. Si su sitio de proteccin (Londres) y el sitio de recuperacin (Reading) se configuran de una manera muy similar, a veces es difcil mantener las relaciones claras en la cabeza, y eso que slo son dos sitios! A veces esta claro, ya que las mquinas virtuales "reales" estn encendidas y las mquinas virtuales placeholder estn apagadas. Esta distincin se har menos clara una vez que haya activado su plan DR de una forma real, ya que algunos proveedores de almacenamiento requieren el apagado de las mquinas virtuales durante el proceso de recuperacin o failback. Usted va a encontrar este inconveniente aun ms, cuando nos ocupemos del failover y failback, especialmente con el failback. Yo tuve que concentrarme mucho cuando estaba haciendo mi primer failback y escribir el resultado para este libro, debido principalmente a que el failback es un proceso muy manual que requiere interactuar con la capa de almacenamiento de una forma an ms directa de lo que ya lo hemos hecho. En el prximo captulo, failover y failback - ejecutando los planes de recuperacin en una situacin real, veremos lo que mucha gente denomina "Pulsar el gran botn rojo"

261

Captulo 9: Failover and Failback

262

Lo nico que todava tenemos que discutir o cubrir, es exactamente que es SRM en realidad?. Cuando un desastre se produce, usted debe activar su plan de recuperacin real. Es a veces llamado "presionar el gran botn rojo". La razn por la que este tema ha salido tan tarde es porque se trata de una decisin importante, con cambios permanentes en la configuracin del entorno de su SRM y mquinas virtuales y por lo que no se debe ejecutar a la ligera. La segunda razn por la que cubro este tema ahora, es porque antes de iniciar este captulo quise cambiar por completo el punto de vista del libro para cubrir la configuracin bidireccional. De manera, que el cambio de nombre de todos los objetos del vCenter en el captulo 6, fue el precursor para preparar la configuracin bi-direccional. No quise ejecutar un plan real DR antes de hacer y entender una configuracin bi-direccional. Mi ltima razn por la que deje este tema tan tarde en el libro, es que en esta versin no existe un "failback" despus de poner en marcha el plan de recuperacin. Por lo tanto, en esta versin de SRM, el proceso de failback es un proceso manual, tanto en la capa de almacenamiento, como en la capa de vCenter. Una ejecucin real de su plan de recuperacin es como una prueba, salvo que en este caso, la fase de la primera etapa del plan es realmente ejecutada. En otras palabras, si es posible, SRM apagar las mquinas virtuales en el sitio de proteccin (Londres), y si est disponible. Pero no ejecutara la parte final del plan, que es la de restablecer todas las mquinas virtuales del sitio de recuperacin. SRM las dejara encendidas y en marcha. En el mundo real, el hacer clic en el "gran botn rojo", va a requerir la autorizacin de la direccin, por lo general a nivel de CEO, CTO, CIO, a menos que estos chicos estn en el edificio que fue demolido por el desastre en s. En ese caso, se delegara en alguien ms abajo en la estructura de gestin la toma de la decisin. Usted puede considerar esta cuestin como parte del plan DR/BC. Si hemos perdido superiores encargados de adoptar decisiones, ya sea de forma temporal o permanente, alguien tendr que asumir sus funciones y responsabilidades. Adems, habr importantes cambios en la cabina de almacenamiento. El SRA elegir automticamente la instantnea ms reciente y luego se detendr el ciclo normal de replicacin entre el sitio protegido y el sitio de recuperacin. Esto provocara, por lo general, un cambio de situacin de las LUNs/Volmenes y, pasaran de ser replicas secundarias a ser una replicas o LUNs/Volmenes primarias. Todo esto se hace sin que tenga que avisar a los chicos del el equipo de almacenamiento. Si usted est usando VSA Lefthand Networks, vera que el volumen que normalmente estaba marcado como "remota" pasa a ser "primaria"

263

Activar el plan desde el SRM es muy fcil de hacer y, algunos podran decir que es demasiado fcil. Solo tiene que pulsar el botn "Run", leer una advertencia, cambiar la opcin de un botn para confirmar que entiende las consecuencias y hacer clic en OK.

Consideraciones antes de failover y recuperacin


Hay algunas consideraciones muy importantes que se deben considerar antes de presionar el botn rojo. De hecho, debera discutir estas cuestiones antes de abordar la implementacin de la aplicacin de SRM. En primer lugar y, dependiendo de cmo se haya licenciado SRM, es posible que tenga que transferir la licencia entre el SRM del sitio protegido al sitio de recuperacin, para estar cubiertos por el acuerdo EULA de VMware. En segundo lugar, si usted est cambiando las direcciones IP de las mquinas virtuales, entonces sus sistemas de DNS debern tener la correcta y correspondiente direccin IP y nombres de host en el DNS. Idealmente, esto ser posible mediante el uso de su servidor DNS dinmico, pero tenga cuidado con los registros estticos en la cach del DNS y los registros DNS en otros sistemas.

Failover previsto - El sitio protegido est disponible


La principal diferencia obvia cuando se ejecuta el plan de recuperacin y, el sitio protegido se encuentra disponible, es que las mquinas virtuales en el sitio protegido se apagaran basndose en un orden especificado en su plan. Tambin, se efecta un cambio, y es la suspensin de la replicacin entre el sitio protegido y el sitio de recuperacin. El siguiente diagrama, ilustra la suspensin del ciclo de replicacin normal. Esto es necesario que ocurra para evitar conflictos de replicacin y prdida de datos, despus de todo, las mquinas virtuales en el sitio de recuperacin sern a las que los usuarios se conectaran y cambiaran los datos. A todos los efectos, son las mquinas virtuales principales, despus de que un failover se ha producido.

264

ica Como se puede ver, la X indi que la replicacin de los datos se ha suspendido y las LUNs que fueron marcada como R/O (read only) en nuestras prueba se han as as, marcado como R/W (read an write) en la ejecucin de nuestro plan de nd recuperacin. ormalmente una tarea que se activa en la ca abina de En un DR manual, esto es no almacenamiento por un oper rador humano utilizando las opciones "failov ver/ failback de los vendedores. Pero com el SRA tiene derechos administrativos en el mo almacenamiento, esto puede ser automatizado por SRM. Una vez que el plan se ha e completado con xito, usted debe ser capaz de ver este cambio en su sistema de olumen que almacenamiento. Por ejemplo, en VSA Lefthand Networks ver que el vo una vez fue una copa remota secundaria, es ahora una copia primaria. a

265

Aqu puede ver que el volumen llamado replica_of_virtualmachine, est ahora marcada como "Primary", donde sola decir "Remote". Adems, se puede ver que los nmeros de las instantneas estn "fuera de sincronizacin". Ha pasado algn tiempo desde que he ejecutado un plan de verdad y, mientras que el ProtectedManagementGroup ha llevado a cabo el programa de instantneas locales, estas instantneas no han sido transmitidas a travs del cable al RecoveryManagementGroup. El SRM/SRA ha detenido la copia remota automticamente. Este es el comportamiento por defecto, cada vez que un plan de recuperacin se ejecuta. En este ejemplo, voy a asumir que se ha perdido el acceso al sitio en Londres durante algunas horas o das. 1. En este caso necesito entrar en el vCenter del sitio de recuperacin en mi caso es Reading 2. Seleccione el plan de recuperacin, y haga clic en el botn Run

266

3. Lea el texto de confirmacin y seleccinelo. Luego haga clic en Run Recovery Plan

Nota: Tengo una grabacin en vivo de la ejecucin mi plan en el sitio web del Blog de Virtualizacin en Espaol. Si desea ver lo que sucedi cuando se ejecut este plan lo puede ver aqu: http://www.josemariagonzalez.es/srm.html Si todo transcurre segn el plan (perdonen el juego de palabras), no ver mucha diferencia con la ejecucin del plan de prueba. Lo que usted ver, son eventos apagados en el sitio protegido.

267

Failback planeado - El sitio de protegido est disponible


Como recordatorio, permtanme reiterar que SRM no fue diseado para automatizar el failback al sitio primario o protegido. Dicho esto, SRM puede ser configurado para ayudar en ese proceso. En el estado actual, el sitio de recuperacin (Reading) es el propietario de las mquinas virtuales de Londres. Estas se estn ejecutando y estn conectadas a los usuarios finales. Como tal, es posible crear un grupo de proteccin temporal en el sitio de recuperacin y en el plan de recuperacin en el sitio protegido y, por tanto, invertir el proceso para que se ejecute antes. Por supuesto, hay que tener cuidado y asegurarse de que cualquier cambio generado en el poco tiempo que hemos estado "corriendo" en el sitio de recuperacin (para m ha sido cerca de un da), se reproducen de nuevo a la zona protegida para evitar la prdida de datos. Este procedimiento suena muy sencillo, slo hay que darle "la vuelta" a la configuracin. Usted puede pensar de esta situacin, que es un poco como cuando va en su coche y se da cuenta que ha tomado la direccin equivocada y todo lo que necesita hacer es realizar es un cambio de sentido opuesto. Si desea ampliar aun ms esta analoga del coche, es como que usted se equivoco de salida algunas horas atrs, y ahora la nica manera de volver por el buen camino es cambiar de sentido y recorrer algunos sitios por los que ya haba pasado. Ah, por cierto, sus hijos necesitan usar el bao, y se est quedando sin gasolina. Junto a todo esto, el pequeo acaba de decir, "Papi, Hemos llegamos ya?" Desde una perspectiva de almacenamiento tambin significa invertir su ruta normal de replicacin, desde el sitio protegida al sitio de recuperacin. Esta es una tarea manual realizada con mucho cuidado y que se ha de hacer leyendo la documentacin del proveedor de la cabina de almacenamiento para saber cmo llevar a cabo la reconfiguracin. Si la cabina, en el sitio protegido, no ha sido destruida en el desastre, los datos contenidos en esta, estarn fuera de sincronizacin con el sitio de recuperacin. Cunto?, depender enteramente de cunto tiempo hemos estado usando el sitio de recuperacin y cuando hayan cambiado los datos. Por otra parte, si la cabina de almacenamiento ha sido destruida o est altamente de sincronizada, quizs quiera traer la nueva cabina al sitio de recuperacin y hacer la rplica a nivel local.

268

mplica an ms por el hecho de que tenemos que s El proceso de failback se com "limpiar" manualmente la configuracin original del SRM y volver a la misma antes de que se produjera el error. Adems, una vez , configuracin que tenamos a que el failback ha finalizado, tenemos que "limpiar" la misma configuracin que facilito el failback en primer lugar, y recuperar nuestro proceso original d de r cuparnos de recuperacin. Vamos a tratar este proceso de "limpieza", antes de preoc invertir el proceso de replicacin de almacenamiento. s el Paso 1: Limpieza de todos los archivos placeholder antiguos en e sitio de recuperacin (Reading) los Durante la configuracin de l archivos VMX placeholder/shandow de SRM, estos fueron colocados en un alma acenamiento en un servidor ESX en el sitio d de recuperacin, en mi caso Rea ading. Estos deben ser borrados manualmen nte. Mientras que escriba este lib bro, he hecho muchos cambios, como la crea acin y la destruccin de mquinas virt tuales (ctx-3, fs-3 y otras) y tambin he cam mbiado el nombre de algunas de mis m mquinas virtuales (london-ctx-2, london-fs-2). Esto cre una gran cantidad de "b basura" en el lugar que escog para almacenar mis ficheros VMX placeholder. Es me hizo darme cuenta de la necesidad de haber sto e dedicado un lugar especfico para el almacenamiento de estos ficheros, p para mantener estos totalmente independientes de cualquier archivo VMX "re eal". Como s yo he utilizado "tontamente" un lugar de almacenamiento local para mis archivos de VMX placeholder, usted pued ver que los archivos locales de mi VSA tambin se encuentran en el mismo volu umen VMFS.

269

Utilizando [Shift] + clic en el panel de la derecha puede eliminar el archivo VMX placeholder muy rpidamente.

270

Nota: 99% de lo que he aprendido en la vida ha sido de los errores, esto no significa, sin embargo, que hago un 99% de errores todo el tiempo! Paso 2: Eliminar el grupo de proteccin en el sitio de proteccin (Londres) La prxima etapa ser suprimir el grupo de proteccin en el sitio de proteccin, en mi caso Londres, el cual fue utilizado para poner en marcha el failover 1. Entre en el vCenter del sitio protegido (Londres) 2. Haga clic en el icono Site Recovery 3. Ampli + los grupos de proteccin y seleccione su grupo de proteccin 4. Haga clic en el botn Remove Protection Group

Paso 3: Borre del inventario todas las mquinas virtuales Protegidas "viejas" (Londres) El siguiente paso, es eliminar las antiguas y obsoletas mquinas virtuales que fueron ejecutadas una vez en el sitio proteccin (Londres). Aqu es donde una buena carpeta y una estructura de resource pools es muy til para mantener la mquina virtual de proteccin fuera de las machinas locales o maquinas sin proteccin. Esta fase de limpieza es necesaria para que no tengamos conflictos en los nombres de las mquinas virtuales. 1. Entre en el vCenter del sitio protegido (Londres) 2. Seleccione todas las mquinas virtuales "out of date" 3. Haga clic con el botn derecho y seleccione Remove from Inventory

271

Paso 4: Apagado de las mquinas virtuales proteger en el sitio de recuperacin (Reading) Para el siguiente paso, necesitara una ventana de mantenimiento. Tenemos que apagar de una forma controlada y limpia todas las mquinas virtuales en el sitio de recuperacin. Esto asegurar que todas las maquinas virtuales son paradas de una forma limpia (quiesced) antes de invertir el camino de la replicacin. 1. Inicie sesin en el vCenter del sitio de recuperacin (Reading) 2. Utilice "Shutdown Guest Operating System" para apagar las mquinas virtuales

272

Paso 5: Detener la replicacin/Snaphot e invierta el camino de replicacin (cabina de almacenamiento) Muchos proveedores utilizan diferentes trminos para esto. Algunos vendedores lo llaman "personality swap", otros vendedores lo llaman "failover y failback". Lo que realmente significa es que donde el camino de replicacin sola ser: sitio protegido >> sitio de recuperacin, tenemos que enviar los datos de vuelta al sitio protegido usando el camino: sitio de recuperacin >> sitio protegido. Si no hacemos esto, podramos tener una prdida de datos. En primer lugar, tenemos que parar o detener cualquier proceso local de instantneas que este teniendo lugar en el volumen original, antes de ejecutar un failback o "personality swap". Una vez que el proceso "invertir" se ha completado, tendremos que reanudar el programa de replicacin o cualquier proceso de instantnea que tuviramos en su lugar. En VSA Lefthand Networks, sera de la siguiente forma: 1. Entre como administrador en el Lefthand Networks CMC 2. Seleccione el volumen original y haga clic en la pestaa Schedules 3. Haga clic con el botn derecho sobre la instantnea y elija "Pause Snapshot Schedule"

Nota: Repita este proceso para todos los volmenes VMFS afectados y tambin para cualquier volumen RDM.

273

Nota: Ahora que nuestro ciclo habitual de replicacin se ha detenido, podemos replicar de vuelta una sola vez (no regular) los cambios que se han creado mientras que estbamos en funcionamiento en el sitio de recuperacin. 4. En el RecoveryManagementGroup, haga clic derecho en el volumen replicado y elija New Schedule Remote Snapshot Nota: A pesar de que queremos hacer esta replica/instantnea slo una vez, tenemos que seguir utilizando el Schedule remote snapshot para que SRM reconozca esta LUN/volumen replicada. 5. Para hacer de esta una nica replica, elimine la opcin en el cuadro de dilogo Recur Every option y seleccione bajo el Remote Shapshot Setup el destino como el volumen original que tenemos en el sitio de proteccin

274

ADVERTENCIA: NO SE EQUIVOQUE CON ESTO. Soy uno de esos tipos que tiene un cerebro hiperactivo y que no puede encontrar el interruptor de mi lbulo frontal. Una vez a las 3:22am, jugando con esto y cuando no se requera "cerebro", hice mal este proceso. Era parte de la elaboracin de este libro por lo que no fue el fin del mundo. Mi LUN RDM tena tres archivos de un 1K llamados newfile.txt, afterfailover.txt y beforefailback.txt creados en diversos puntos en el proceso. De todos modos, y sin comprometer ningn lbulo frontal, perd mi archivo beforefailback. Esto es tambin una advertencia sobre los peligros del trabajo en solitario sin descanso por la noche, en lo que implica la manipulacin de datos. 6. Haga clic en el botn Edit junto al Start At: y haga clic en OK. Esto fijar la fecha y la hora de inicio de la instantnea para que se ahora Nota: Esto va a sobrescribir el volumen original. Durante esta replica/instantnea, slo la diferencia, ya que ejecutamos el plan de recuperacin, ser copiado de vuelta al sitio protegido, en mi caso Londres. El tiempo que tarde

275

depende en gran medida de la cantidad de cambios que hayan tenido lugar desde que se ejecuto el plan de recuperacin. Es muy probable que aparezca un mensaje de advertencia ya que este proceso es en realidad, modificara nuestra LUN/volumen fuente.

Una vez que haga clic en OK, usted debe ver que la replicacin sucede de inmediato. Con VSA Lefthand Networks, vera grficos animados que muestran que la replicacin est ocurriendo actualmente en la direccin opuesta.

276

Nota: Repita este proceso para los dems volmenes, incluidos los RDMs. Paso 6: Actualizar el almacenamiento en el sitio de recuperacin (Reading) Como en el captulo anterior, hemos configurado nuestro sistema para permitir un DR bidireccional, el sitio de recuperacin (Reading) ya est configurado para comunicarse con las dos cabinas que componen nuestra configuracin. Todo lo que tenemos que hacer es actualizar y volver a re-escanear la cabina, para asegurarse de que el sistema puede ver las nuevas LUNs/volmenes que se han replicado. Si usted recuerda, en el anterior captulo 6 del libro, ya hice un proceso muy similar cuando le mostr como actualizar su sitio protegido, para un nuevo escenario en el que las mquinas virtuales se ha creado sobre un volumen VMFS nuevo. He decidido repetir las instrucciones una vez ms. La modificacin de los grficos refleja la nueva configuracin. 1. En el sitio de recuperacin del sitio de SRM (Reading) 2. Haga clic en el enlace Configure junto al Array Manager 3. Seleccione la entrada para el Protection Site Array Manager y seleccione Edit

277

4. Escriba el nombre de usuario y la contrasea utilizada para autentificarse con la cabina de almacenamiento y haga clic en Connect y despus de que el proceso haya terminado, haga clic en Next

278

Nota: Repita esto para el Recovery Array Manager

5. En el ltimo cuadro de dilogo haga clic en el botn Refrest Array. Esto deber actualizar el sistema de almacenamiento y mostrar el nuevo LUN/Volumen

279

Nota: Usted podra notar que, a pesar del xito de la replicacin de mi LUN RDM al sitio protegido (Londres), este no aparece en esta lista. Esto es algo preocupante y sospecho que tendr que resolver manualmente cuando haga un failback, al igual que lo hice cuando hice un failover. Despus de escribir este captulo, volv hacer el mismo procedimiento de nuevo, esta vez simulando una cada del sitio protegido (Londres). En mi segundo intento, el cuadro de dilogo me dio una informacin mucho ms tranquilizadora

Nota: As que la moraleja es que si cuando usted est haciendo el procedimiento de failback y le faltan LUNs/volmenes en esta lista, no se preocupe. No siga hasta que haya resuelto el problema, porque cuando usted participe en un

280

failback, y el almacenamiento simplemente no existe o es incompleto, sus mquinas virtuales tambin estarn incompletas. Paso 7: Configurar las asignaciones de inventario en el sitio de recuperacin (Reading) Como con todos los planes de recuperacin, necesito configurar las asignaciones de inventario y los grupos de proteccin. As que desde el sitio de recuperacin (Reading), tengo que decirle a SRM cmo manejar la red, los resource pools y estructura de carpetas de Londres. Como tengo una configuracin bidireccional para hacer failover de las mquinas virtuales de Reading a Londres, en mi caso no hay necesidad de mapear las VLANs en Reading (61,62,63) a Londres (21,22,23) . Todo lo que tiene que hacer es actualizar las asignaciones para incluir los resource pools y la localizacin de las carpetas. Puede que recuerde que no tena un mapeo uno-a-uno de mis carpetas. En el sitio protegido (Londres) tena esta estructura de carpetas:

En el sitio de recuperacin fueron copias sin contemplaciones a una nica estructura de carpetas como se muestra a continuacin:

Pero he decidido que esto es indeseable. Cuando hago un failback quiero que todas mis mquinas virtuales se asignen a las carpetas correctas de "primaria" y "secundaria". Voy a corregir esto en el sitio de recuperacin ahora. Despus, configurare mis asignaciones. Creo que una recomendacin, salida de esta experiencia, podra ser el crear una misma estructura "espejo" de carpetas/resource pools en el sitio de recuperacin que "refleje" la misma estructura del sitio de proteccin (Londres), para que cualquier mquina virtual pueda ser trasladada a la carpeta correcta en todo momento. 1. Inicie sesin en el vCenter del sitio de recuperacin (Reading) 2. Haga clic en el icono de SRM 3. Seleccione el + Protection Groups nodo, y haga clic en la pestaa de Inventory Mappings 4. Configure sus asignaciones adecuadamente Advertencia: Si no ha configurado el DR bidireccional, tendr que mapear los recursos de red tambin.

281

Paso 8: Crear un grupo de proteccin y recuperacin (Reading) Ahora que tenemos el inventario de asignaciones, para decir al SRM donde debe poner nuestras maquinas virtuales protegidas (Londres), tenemos que configurar un grupo de proteccin para estas, en el servidor SRM del sitio de recuperacin (Reading). Esto crear los archivos "placeholder" en el sitio protegido (Londres). 1. Inicie sesin en el vCenter del sitio de recuperacin (Reading) 2. Seleccione el + Protection Group nodo, y haga clic en el botn Create Protection Group 3. En el cuadro de dilogo Protection Group, escriba un nombre como por ejemplo Failback London Virtual Machines 4. Seleccione el DataStore que tiene sus mquinas virtuales protegidas

282

Nota: Fjese en cmo "reading_virtualmachines" est atenuado, ya que est cubierto por la proteccin de otro grupo llamado "Readings Virtual Machines" 5. Seleccione una ubicacin temporal para el almacenamiento de los archivos VMS "placeholder" o "shadow" en el sitio protegido

Advertencia: Es en esta etapa recibir advertencias, si la replicacin no se ha configurado correctamente. En mis pruebas anteriores, como sospechaba que tena problemas con uno de mis LUNs RDM, he recibido errores de la mquina virtual que tena el RDM.

283

Esto caus que el placeholder de London-ctx1 no fuera creado y que no figurara en absoluto en el sitio de Londres.

Nota: Para corregir este problema en ese momento, decid hacer clic derecho en la mquina virtual london-ctx-1 y eliminar su referencia al mapeo de la LUN RDM y despus hice clic en el botn "Configure Protection". Pero la verdadera solucin para arreglar el problema, fue arreglar el problema de replicacin del almacenamiento subyacente. Ms tarde me dio otro error, diciendo que haba agotado el espacio para la creacin de instantneas. El problema no fue causado por SRM o Lefthand Networks, sino por mi incapacidad de monitorizar la utilizacin del almacenamiento real. Paso 9: Crear un plan de recuperacin y probarlo (Londres) Estamos ahora en condiciones de crear un plan de recuperacin en el sitio protegido (Londres) para la recuperacin de las mquinas virtuales de Londres. Evidentemente, es conveniente realizar, en este punto, una prueba para ver si el proceso de failback va a tener xito y tambin, el plan de recuperacin tendr que ser tan sofisticado como el plan de recuperacin que cubrimos en el Captulo 6. No tengo la intencin de repetirme aqu, pero tenga en cuenta que puede que tenga que utilizar propiedades "Low, Normal y High", rdenes de arranque, secuencias de comandos y mensajes, para automatizar el proceso en la forma deseada. 1. Inicie sesin en el vCenter del sitio protegido (Londres) 2. Haga clic en el icono de SRM 3. Seleccione + Recovery Plans y haga clic en el botn Create Recovery Plan 4. En el cuadro de dilogo del plan de recuperacin, escriba un nombre como Failback London Virtual Machines y haga clic en Next 5. Seleccione el grupo de proteccin que contiene las mquinas virtuales con el que desee hacer failback al sitio de proteccin

284

Nota: Complete el plan de recuperacin como hemos hecho anteriormente, recordando que hay que suspender las mquinas virtuales que no son necesarias en el lugar protegido. 6. Por ltimo, ponga a prueba su plan de recuperacin para ver si el failback tendr xito

Paso 10: Ejecute el plan de recuperacin real (Londres) Una vez que he resuelto mi problema con la LUN RDM, pude continuar y ejecutar el plan de recuperacin. No tengo nada ms que aadir, ms all de lo que ya he dicho sobre este proceso.

Limpieza del plan de recuperacin


Espere!. No hemos terminado todava!. Ahora que tenemos la mquina virtual de vuelta donde empezamos, tenemos que "limpiar" este proceso. Tenemos que asegurarnos de que nuestras mquinas virtuales que volvieron a nuestro sitio, se est replicando de nuevo a la cabina de almacenamiento del sitio de recuperacin y tambin debemos asegurarnos de que estn adecuadamente protegidas por un plan de recuperacin.

285

Paso 1: Apagado de mquinas virtuales en el sitio protegido (Londres) Al igual que con el failover, es un procedimiento recomendado por Lefthand Networks, el apagar las mquinas virtuales para asegurar que se cierran correctamente (quiesced) antes de restablecer el ciclo regular de la replicacin entre el sitio protegido (Londres) y el sitio de recuperacin (Reading). Por favor consulte con su proveedor sobre documentacin especfica antes de comenzar este proceso. Antes de hacer un power down general, hice un cambio obvio en todas mis mquinas virtuales. Esto es necesario para que cuando se haya re-establecido el ciclo normal de replicacin, entre el sitio protegido y el sitio de recuperacin, pueda confirmar, cuando ejecute una prueba de mi plan de recuperacin, que los dos lugares tienen las mismas mquinas virtuales. En mi caso, he cambiado el escritorio de color de rojo a negro. Paso 2: Limpieza de los archivos placeholders creados durante el failback (Londres) Durante el proceso de failback se cre un grupo de proteccin temporal en el sitio de recuperacin (Reading), para facilitar el proceso de failback. Esto cre toda una serie de archivos de posicin o placeholders en el sitio protegido (Londres), los cuales ya no son necesarios.

Tenga cuidado aqu, de no eliminar los archivos placeholder del sitio de recuperacin (Reading), ya que siguen siendo vlidos para la configuracin bidireccional. Nota: Note de nuevo que para los archivos placeholder, he seleccionado de manera ingenua un lugar de almacenamiento local. Recuerde que esto no es recomendable

286

en el mundo real. Yo recomendara una LUN pequea, no replicada y dedicada slo al almacenamiento de estos archivos, lo cual le facilita la bsqueda y eliminacin de estos archivos. Paso 3: Eliminar el grupo de proteccin (Reading) Lo siguiente fue borrar este grupo de proteccin en el sitio de recuperacin (Reading), donde creamos un grupo de proteccin para facilitar el proceso de failback hacia el sitio de proteccin (Londres).

Paso 4: Eliminar las mquinas virtuales protegidas del sitio de recuperacin Desde el sitio de recuperacin (Reading), debemos eliminar las referencias antiguas de las maquinas virtuales del sitio protegido (Londres). Vamos a re-restablecer la proteccin para estas mquinas virtuales, que ahora estn de vuelta en el sitio de proteccin (Londres), porque si los dejamos, se producirn conflictos entre los archivos placeholdres recin creados.

287

Paso 5: Eliminar el "Failback" plan de recuperacin del sitio protegido (Londres) Ahora que el failback ha funcionado, no necesitamos este plan de failback.

288

Paso 5: Re-establecer el camino regular de replicacin/replicacin programada (Cabina de almacenamiento) Ahora que el sitio protegido (Londres) es propietario de las mquinas virtuales, hay que asegurarse de que se estn replicando hacia el sitio de recuperacin (Reading). Este proceso vara segn el proveedor de almacenamiento. Con VSA Lefthand Networks, primero debemos cambiar el volumen que el sitio de recuperacin (Reading) estaba utilizando y cambiarlo de un volumen "principal" o primario a que sea de nuevo un volumen remoto. Despus de hacer esto, debemos hacer una "limpieza" de la vieja instantnea remota que fue tomada de este volumen para sincronizar los datos justo antes del failback. Por ltimo, podremos reanudar el programa de copia remota de manera que el sitio de proteccin replique sus cambios al sitio de recuperacin. En mi caso, tengo dos volmenes que necesitan ser marcados como "remota" - mi replica_of_virtualmachines y mi replica_of_rdm_ctx1. Es muy fcil ver si un volumen es primario o remoto, por el color del icono del volumen en el interfaz de gestin. Volmenes primarios

Volmenes remotos

1. Entre en el Lefthand Networks SRM como Administrador 2. Amplie el + RecoveryManagementGroup (Reading), + RecoveryCluster y + Volmenes 3. Haga clic derecho en replica_of_virtualmachines y del men seleccione Edit Volume 4. Despus, haga clic en la pestaa Advanced y cambie el tipo a Remote

289

Haga clic en OK en los dos cuadros de dialogo de advertencia

Nota: Esto debe de volver a poner en marcha el patrn regular de replicacin/ instantnea entre el sitio protegido (Londres) y el sitio de recuperacin

290

(Reading). Despus de hacer clic en OK, el proceso de instantneas debera comenzar de inmediato. En la captura de pantalla sguete se puede ver que la direccin de replicacin es ahora de ProtectedManagementGroup (Londres) a RecoveryManagementGroup (Reading)

Nota: Una vez que esta sincronizacin inicial se ha llevado a cabo, podemos volver a habilitar el horario regular para la replicacin en el ProtectedManagementGroup 5. Seleccione los volmenes primarios hospedad en el ProtectedManagementGroup, en mi caso se trata de los volmenes llamados virtualmachines y rdm_ctx1 6. Seleccione la pestaa de Schedules

Nota: Observe cmo el schedule de mi virtualmachines LUN/Volumen es pausado. Tambin observar cmo el volumen rdm_ctx1 aun no se puede seleccionar.

291

Esto es debido a que es considerado todava un volumen remoto. Este tiene que ser marcado como uno de los volmenes principales antes de que su schedule sea reanudado. 7. Haga click derecho en Paused schedule, y elija Resume Snapshot Schedule Paso 6: Limpieza nica instantneas/Schedule Durante el procedimiento de failback, hemos creado una instantnea desde el sitio de recuperacin (Reading) al sitio protegido (Londres), para asegranos de que las mquinas virtuales de Londres han estado corriendo por un nmero de das. Necesitamos asegurarnos de que Londres tena la versin ms reciente de los archivos de las mquinas virtuales. Para ello hemos creado una instantnea programada que slo ha ocurrido una vez, y no se repiti. Ese fue el paso 5 en el proceso de failback. No necesitamos ms estas instantneas, ya que slo sirvieron para facilitar el proceso de failback. Estas no crearn ningn error o problema, pero nos podra confundir ms adelante, si nos olvidamos para que las utilicemos en el pasado. Aunque ahora parece que podramos tener un nmero de instantneas algo desconcertante, en realidad, son bastante fciles de detectar, ya que normalmente apuntan en la direccin opuesta a nuestra direccin habitual de replicacin/instantnea.

292

Nota: Cuando hace clic con el botn derecho y elimina la instantnea, VSA no borra las dos partes (Pri1 y Rmt1). Tampoco tenemos ninguna necesidad para las referencias a los schedules no recurrentes que crearon estas instantneas en primer lugar. Una vez ms, no estn haciendo ningn dao, pero no son necesarias.

Paso 6: Re-crear el grupo de proteccin en el sitio de proteccin (Londres) Durante el proceso de failover hemos suprimido el grupo de proteccin que cubri a nuestras mquinas virtuales en Londres. Ahora que hemos limpiado el sistema, estamos en la posicin que re-establecer la proteccin.

293

1. Inicie sesin con el cliente Vi en el vCenter del sitio protegido (Londres) 2. Haga clic en el icono Site Recovery 3. En la pestaa Summary, en el panel de Protection Setup, haga clic en el enlace Create situado junto a la opcin Protection Groups 4. En el cuadro de dilogo Create Protection Group - Name and Description, escriba un nombre y una descripcin para el grupo de proteccin. En mi caso estoy creando un grupo de proteccin llamado London virtual Machines Protection Group 5. Al hacer clic en Next, el asistente de grupo de proteccin le mostrar los datastores descubiertos por el Array Manager 6. Despus, seleccione un DataStore "placeholder" para sus mquinas virtuales. Puede utilizar el almacenamiento remoto, pero si lo hace debe usar un volumen VMFS stand-alone que no participe en ningn proceso de replicacin. Paso 7: Re-habilitar el grupo de proteccin en el plan de recuperacin (Reading) Como hemos suprimido el grupo de proteccin en la fase anterior, simplemente con volver a crear el grupo de proteccin, no se reconectara automticamente con nuestro viejo plan de recuperacin. Tendremos que editar cada uno de ellos, y habilitar el grupo de proteccin. Lamentablemente, uno de los grandes efectos secundarios de la eliminacin del grupo de proteccin y su re-creacin, es que cuando las mquinas virtuales se aaden de nuevo en el plan de recuperacin, todos los ajustes de prioridad se pierden y usted tendr que volver a ordenar manualmente el orden de arranque de sus maquinas virtuales. Esto no es en absoluto nada agradable. 1. Inicie sesin con el cliente Vi en el vCenter del sitio de recuperacin (Reading) 2. Haga clic en el icono Site Recovery 3. Seleccione el plan de Recuperacin, en mi caso tengo dos, uno llamado de London's Customer Recovery Plan y el otro London's Simple Recovery Plan 4. Haga clic en Edit Recovery Plan y haga clic en Next en el cuadro de dilogo 5. Siguiente, re-habiltate el grupo de proteccin para el plan de recuperacin

6. Haga clic en Next y en el cuadro de dilogo VM Response Times, seleccione un valor de tiempo que usted crea que es apropiado para el arrancado de sus maquinas virtuales de recuperacin.

294

7. En el cuadro de dilogo Edit Recovery Plan - Configure Text Networks, establezca las opciones para manejar la creacin de redes cuando usted ejecute una prueba. 8. Por ltimo, usted puede suspender maquinas virtuales en el sitio de recuperacin para liberar recursos de CPU y memoria en el cuadro de dilogo Create Recovery Plan - Suspend Local Virtual Machines. En mi caso he suspendido mi maquina virtual Test & Dev. 9. Haga clic en Finish. 10. IMPORTANTE: REVISE Y REAJUSTE TODAS LAS PRIORIDADES DE SU MAQUINA VIRTUAL Y ORDEN DE CONFIGURACION CONTENIDA EN EL PLAN DE RECUPERACIN Nota: Bueno, ahora estamos donde empezamos antes del failover y failback. Usted podra poder probar su plan de nuevo, para garantizar que funciona correctamente.

Errores de limpieza
Como dije antes, el proceso de limpieza es un proceso que si no se sigue al pie de la letra podra causar problemas. Algunos de esos problemas, podran estar en la capa de almacenamiento o en la capa de VMware. Este es un ejemplo de un proceso de limpieza mal ejecutado en la cabina de almacenamiento.

295

Ahora quiero ser honesto con usted. No soy un gur de almacenamiento y he ido aprendiendo a lo largo de este libro con el VSA. He recibido un soporte fantstico de uno de sus tcnicos llamado Adam Carter. As que cuando hice mi limpieza haba una serie de instantneas de estos volmenes y no saba si los deba borrar o limpiar. Tengo otras instantneas locales sobre la replica_of_virtualmachines y estos necesitan tambin ser eliminados.

296

La forma en la que "Remote Schedule Snapshot" funciona, es que cuando usted toma una instantnea, primero el sistema toma una instantnea local (SS_1, SS_2, SS_3); una vez que ha finalizado, la copia al volumen remoto. As pues, estas instantneas se crearon cuando hice una re-sincronizacin en el sitio de recuperacin (Reading) con el sitio protegido (Londres), justo antes del proceso de failover. As que esto es lo que muestra mi VSA Lefthand Networks despus de haber hecho el proceso de limpieza correctamente.

297

Fjese cmo la replica_of_virtualmachines slo tiene instantneas del tipo "RMT", y el volumen principal slo tiene instantneas de tipo "Pri".

Failover imprevisto - El sitio protegido est MUERTO


Desde que hice la prueba de plan planeado, he vuelto a poner mi configuracin inicial en su lugar, he incluso llegue a testear mi plan de recuperacin de mis mquinas virtuales protegidas en Londres para asegurarme de que funcionaba correctamente. Ahora, lo que quiero hacer es, documentar el mismo proceso de failover y failback sobre la base de una prdida total del sitio de proteccin (Londres). Para simular esta cada, hice un power off va las tarjetas ILO de HP, de todos mis servidores ESX en el sitio protegido. En esencia, es como si quitramos las fuentes de alimentacin de los servidores ESX. Si recuerda, desde el principio estoy ejecutando todo sobre dos servidores ESX pequeos y un poco antiguos.

298

Esto incluye la proteccin del sitio SQL, vCenter, SRM y VSA Lefthand Networks. Esto simula un fallo catastrfico total en cuanto a que ya no hay nada funcionando en el sitio de proteccin (Londres). Hice un apagado no controlado para simular una prdida inesperada del sistema total. La razn principal de ello, es por as podre documentar cmo se comporta y gestiona SRM, cuando esta situacin ocurre. Usted puede que nunca llegue a probar esta situacin hasta que llegue el da fatdico. Lo primero que usted notar cuando llegue al sitio de recuperacin, aparte de un montn de rostros con caras preocupadas, es que sus herramientas de gestin de almacenamiento no ser capaz de comunicar con el sitio protegido. Por ejemplo, en VSA Lefthand Networks usted ver que su VSA, en el sitio protegido, es eliminado de los sistemas de gestin.

299

La principal diferencia cuando el sitio protegido (Londres) no est disponible es que, cuando inicie sesin en el sitio de recuperacin (Reading), el cliente Vi le pedir que inicie la sesin en el vCenter del sitio protegido (Londres), porque recuerde, el vCenter del sitio protegido est muerto!.

Si usted trata de completar este registro tendr un error:

300

Failback planeado - El sitio protegido ha vuelto! y est funcionando


Por supuesto y por definicin, el proceso de failback slo puede proceder si el sitio protegido (Londres) est disponible de nuevo. A este respecto, no debe ser diferente del proceso de failback que hemos cubierto anteriormente en este captulo. No obstante, para completar esta seccin, quera cubrir otra vez esta parte. No tengo la intencin de cortar y pegar toda la seccin anterior, pero por brevedad slo cubrir lo que es diferente en este caso de proceso de failback. Para simular esta situacin encender de nuevo mis servidores ESX. Para generar toda una serie de errores y fracasos, quise hacer el encendido de los sistemas lo ms difcil posible, por lo que me asegure de que mi cabina de almacenamiento, mi servidor SQL, y mi servidor de vCenter y SRM estaban todos de nuevo en lnea pero con un orden de encendido equivocado. Pens que repetira este proceso de nuevo para ver si hay cualquier imprevisto o error sobre del que pudiera advertirle. Sitio de recuperacin y sitio protegido no conectados En primer lugar, cuando volv a poner online el sitio protegido tuve algunos pequeos errores de servicio porque el SRM del sitio de protegidas arranco antes que mi SQL y el sistema de vCenter. El comando "net start vmwaredr" en el servidor SRM arreglo el problema. Tambin tuve un par de problemas de conectividad por resolver y tuve que vincular los sitios de nuevo. Este error es similar al que cubrimos en el captulo 5: Faiure to Connect to the SRM Server

Problemas de acceso al almacenamiento "rompi" mi grupo de proteccin

301

Si usted se acuerda del failover, despus de limpiar los archivos VMX viejos de placeholder/shadow, VMware recomienda eliminar el grupo de proteccin viejo. Vi que esto tena un icono de exclamacin rojo, lo cual no haba visto antes.

Esto a su vez podra haber sido causado por un problema de almacenamiento. Recuerde, mis servidores ESX en el sitio de proteccin fueron encendidos antes que mi cabina de almacenamiento estuviera disponible.

Para ser honesto, este es un error sin importancia. Pens que era un error relativo a alguna informacin desactualizada. As que intente eliminar el grupo antiguo de proteccin utilizando "remover from inventory" sobre las mquinas virtuales "inaccesibles". SRM odio esto, tanto as que lanzo todo tipo de errores como este:

302

Nota: SRM odio tanto este hecho, que el servicio termin inesperadamente y lo tuve que reiniciar manualmente con el comando net start vmware-dr. Lo extrao fue es que, pasara en el sitio de recuperacin y no en el sitio protegido. Al final me vi obligado a volver a re-escanear mis servidores ESX para que pudieran ver la cabina de almacenamiento y, a continuacin, borrar el grupo de proteccin. A partir de ese momento, las cosas fueron segn lo previsto. Pude eliminar del inventario las mquinas virtuales antiguas protegidas en el sitio protegido (Londres) y fui capaz de apagar las mquinas virtuales en el sitio de recuperacin (Reading), antes de pausar los ciclos de replicacin y de invertir la direccin de la replicacin temporalmente desde el sitio de recuperacin (Reading) al sitio protegido (Londres). La nica pega fue que mi sistema de gestin de almacenamiento no era consciente de que mi cabina de almacenamiento, en el sitio protegido, volvi de nuevo en lnea. En mi caso, simplemente cerr y volv a cargar la consola de administracin de Lefthand Networks para arreglar este problema.

Resolviendo problemas con RDM - Failover


Una vez, y al final de la ejecucin del plan de recuperacin, me di cuenta de que una de mis mquinas virtuales no se recuper correctamente, a pesar de que previamente la prueba del plan tuvo xito y no se reporto ningn problema. Decid tratar de resolver este problema manualmente. Descubr que la fuente del problema era mi mquina virtual ctx-1, la cual tena incluido mapeos de LUNs RDM en el mismo archivo. La causa fundamental del problema fue un fallo en el ciclo de replicacin, debido a que me haba quedado sin espacio fsico por no haber monitorizado la cabina como corresponde. As que en realidad, esto no debera estar aqu, pero lo deje en el libro para darte una idea de los errores y cmo resolverlos. A veces puede aprender ms sobre la tecnologa cuando no funciona que cuando lo hace. Encontr esta mquina virtual en el inventario, y cuando la verifique me di cuenta que era un "marcador de posicin" (placeholder) de mquina virtual.

303

Descubr que si trataba de encender la mquina virtual mediante la opcin "Add to Inventory", me daba este mensaje de error:

Cuando mir dentro de la mquina virtual, vi que lo que sola ser un RDM ahora se consideraba simplemente un disco virtual.

Esta pantalla compara la configuracin de un RDM en funcionamiento.

Mis intentos inciales de eliminar el RDM daado, utilizando el cliente Vi, tuvieron como resultado de este error:

304

Tras un nuevo anlisis, parece ser que el servidor ESX en Reading no tena acceso a la rplica/instantnea del RDM que se aadi a la maquina ctx-1. Despus de mirar ms de cerca al VSA Lefthand Networks, me di cuenta que la rplica/instantnea de este LUN/volumen no se present a mi servidor ESX en Reading.

Como usted puede ver, rdm_ctx1 y ninguno de sus instantneas se han asignado a mis servidores ESX. Despus de identificar cual fue el problema raz, pude arreglar a mano el error en la mquina virtual. Gestin Volumen Failover/Failback Para usar el sistema de gestin de la cabina como antes, tengo que decir al sistema que pare de replicar el volumen RDM, y marcar el volumen replicado como el volumen principal o primario. Antes de hacer esto, la mayora de los vendedores de cabinas recomiendan desconectar los servidores ESX del volumen. La mayora de los vendedores tienen instrucciones de cmo hacer esto con el iniciador iSCSI de Microsoft Windows, pero sorprendentemente muy pocos tienen documentacin de cmo hacerlo con ESX. Desconectar un servidor ESX de la cabina o LUN, parece ms simple de lo que es, sobre todo con el iniciador software iSCSI de VMware. Aunque no parece haber un procedimiento simple, fcil y efectivo de detener las comunicaciones de los servidores ESX, usando el iniciador software iSCSI. He probado muchos mtodos, y todos ellos me han llevado a callejones sin salida. Las cosas que he intentado, para parar la comunicacin iSCSI, han sido las siguientes: El bloqueo de los puertos iSCSI 3260 Desactivacin de la pila de software iSCSI Eliminacin de los volmenes de las listas de volumen Eliminar o modificar la autenticacin de los grupos

Lo que siempre produce una desconexin es: Modificacin de las direcciones IP de la consola de servicios/VMKernel Port Desactivacin del interface vswif y vmkernel El modo en el que detuve temporalmente la comunicacin iSCSI fue con los comandos del servicio de consola siguientes: esxcfg-vswif-s vswif1

305

esxcfg-D-vmknic iSCSI esxcfg-rescan vmhba32 esxcfg-vswif-e vswif1 esxcfg-vmknic-e iSCSI Adicionalmente, puede comprobar que las conexiones estn paradas desde el software de gestin de la cabina, por ejemplo, en VSA Lefthand Networks se puede ver desde la pestaa de iSCSI Sessions:

1. Inicie sesin como administrador en la consola(CMC)de Lefthand Networks 2. Haga clic con el botn derecho sobre el volumen y seleccione el volumen Failover/Failback

3. En el asistente Failover/Failback Volume elija To Failover to the remote volume, replica_of_rdm_ctx1

306

4. En el cuadro de dilogo iSCSI Sessions, confirme que no hay hosts conectados al volumen

5. Por ltimo, haga de la rplica o instantnea el volumen principal o primario. Esto detendr cualquier replica que se haya programado anteriormente

307

6. Lea el cuadro de dilogo de resumen y recordatorio

Permitir acceso al volumen remoto al sitio de recuperacin El siguiente paso es un proceso relativamente simple de concesin de acceso a los servidores ESX en el sitio de recuperacin (en nuestro caso Reading), a la ltima instantnea buena del volumen remoto. En este caso, he usado la lista "testvolume" creada anteriormente en este libro para validar que los servidores ESX, en el sitio de recuperacin, pueden comunicarse con el VSA Lefthand Networks. 1. Entre en el VSA Lefthand Networks como Administrador

308

2. Seleccione el RecoveryManagementGroup y seleccione la pestaa Volume List 3. Edite una lista de volumen existente 4. Haga clic en Add 5. Seleccione la instantnea ms reciente del volumen RDM

Nota: Despus de la asignacin de esta instantnea a los servidores ESX, hice un re-escaneo para confirmar que podan ver el volumen replicado

Modificacin y correccin del archivo VMX 1. En primer lugar, abr una sesiones de PuTTY, y edite manualmente el archivo .VMX para suprimir las referencias antiguas al mapeo RDM scsi0:1.present = "true" scsi0:1.deviceType = "scsi-hardDisk"

309

scsi0:1.filename = "/vmfs/volumes/<UUID>/ctx-1/ctx-1_1.vmdk" scsi0:1.mode = "persistent" scsi0:1.redo = "" 2. Adems, aproveche para corregir la configuracin del port group editando la lnea siguiente: ethernet0.networkName = "vlan21" pasa a ser ethernet0.networkName = "vlan61" 3. Tambin opte por eliminar los archivos VMDK antiguos relacionados con el fallo del mapeo RDM: rm ctx-1_1 *. vmdk -f 4. Siguiente, busqu por el archivo VMX y aad este en la ubicacin correcta del inventario del vCenter utilizando la opcin DataStore Browers "Add to Inventory"

5. Por ltimo, hice clic derecho en la mquina virtual y volv a aadir en el archivo de mapeo RDM

310

Nota: Durante la preparacin para el failback, permit que se produjeran algunos cambios en todas mis mquinas virtuales en Londres. Por lo tanto, en la maquina London-ctx1 cree un nuevo archivo RDM y cambie el fondo del escritorio.

Resolviendo problemas RDM - Failback


Una vez ms, tuve una serie de errores cuando por primera vez prob mi plan de recuperacin. Afortunadamente, fui capaz de resolver estos errores despus de trabajar por un da entero en el problema. Particularmente, he encontrado este error muy interesante por lo que decid mantenerlo en este libro. Una vez ms el origen de este problema fueron los errores de replicacin creados por m personalmente, por no supervisar adecuada el almacenamiento. Fue un error de usuario!. El primer error que tuve en el failback se muestra a continuacin:

Proced a ver si poda encender mi mquina virtual de forma manual. Para mi sorpresa encontr que poda. Al encenderla, encontr algo extrao. Observe que algunas de estas mquinas virtuales (no todas, lo que indica un error del programa o un error de incoherencia),mostraron el mensaje "UUID.Moved", el cual puede ocurrir si usted elimina manualmente las mquinas virtuales del inventario y las aade a un nuevo servidor ESX. Opt por mantener el mismo UUID para asegurarme que mi direccin MAC y datos UUID seguirn siendo los mismos

311

Entonces, Cual fue la causa del Error " Error: Virtual Disk Hard Disk 2 is not accessible on the host: Unable to access file "?. Al principio pens que podra ser un nmero determinado de causa, las cuales todas resultaron ser falsas, pero podran haber sido buenos candidatos. Instantnea incorrecta presentada Volumen VMFS corrompido Replicacin incompleta de mltiples volmenes VMFS Mal UUID en el archivo VMX

Por un tiempo sospeche que realmente el problema era el ltimo de ellos. Al final, la causa fue el problema con el RDM de mi mquina virtual. Y el motivo por el que me di cuenta fue por la referencia al "Hard Disk 2". Slo una de mis mquinas virtuales tena un segundo disco RDM y, esa era la mquina virtual london-ctx-1. Al final, el mejor arreglo fue eliminar la proteccin de esa mquina virtual del grupo de proteccin. 1. Entre en el vCenter del sitio de recuperacin (Reading) 2. Seleccione el icono SRM 3. Seleccione el grupo de proteccin, en mi caso, Failback London Virtual Machines y haga clic en la mquina virtual con el problema, en mi caso, London-ctx-1, y seleccione el botn Remove Protection

312

Nota: Esto har que el grupo de proteccin tenga una desagradable marca de exclamacin sobre l, como si una nueva mquina virtual se haya aadido al sistema pero no haya sido configurada an para su proteccin.

Tuve la oportunidad de aadir London-ctx-1 en el inventario a mano, pero tuve los mismos problemas experimentados durante el failover con el archivo de mapeo RDM. Arregle el problema utilizando el mismo procedimiento descrito anteriormente en este captulo. Es decir, des-registrando la maquina, editando el archivo VMX para eliminar la entrada mala, aadiendo de nuevo la maquina en el vCenter y aadiendo el RDM de forma manual.

Conclusiones
Como usted ha visto el proceso de ejecucin real de un plan no se diferencia mucho de la ejecucin de una prueba. Las consecuencias de ejecucin de un plan de recuperacin son tan inmensas que no puedo encontrar las palabras para describirlo. Evidentemente, un plan de failover y failback es mucho ms fcil de manejar que la causa de un evento catastrfico. Esto es principalmente por lo que usted comprara el producto, y tal vez, si tiene suerte, no tendr que hacer uso de este. Como con todos los seguros contra desastres, SRM es una prdida de dinero hasta que tienen que reclamar la pliza ante un desastre.

313

Si miramos hacia atrs en este captulo, hay mucho ms escrito acerca del failback que del failover. Y eso no es un erro. Esto es debido porque a pesar de ser capaz de utilizar las caractersticas de SRM para acelerar la recuperacin, es en esencia, el failback es un proceso manual. Por supuesto, la salida a esta afirmacin podra ser que SRM nunca tuvo la intencin o nunca fue diseado para automatizar la recuperacin. Pero esto podra ser una limitacin en la adopcin de esta primera versin de SRM. S de algunos bancos, instituciones financieras y grandes empresas farmacuticas, las cuales rigurosamente prueban sus estrategias de DR. Algunas tanto as que prueban sus estrategias DR una vez por trimestre, a pesar de no experimentar ningn desastre real. Hay una doble idea detrs de esto. En primer lugar, la nica manera de saber si su plan DR funciona es si usted lo usa valo como un sistema SAI - no hay nada mejor para ver si funciona como quitar la fuente de alimentacin del servidor. En segundo lugar, esto significa que el personal de TI est constantemente preparando, probando la estrategia y mejorando y actualizando esta, segn se producen cambios en el sitio protegido. Para las grandes organizaciones la falta de un proceso automatizado de recuperacin o failback en el producto SRM, puede ser un "punto de dolor" significativo. Algo que espero y deseo que se incluya en futuras versiones del producto segn el producto madure. Quizs esta sea una buena oportunidad para pasar a otro captulo. Soy un firme creyente de tener un plan B, para en el caso de que el plan A no funcione. Al menos usted podra dejar SRM y hacer todo lo que hemos hecho hasta ahora manualmente. Quizs el prximo captulo, finalmente, le da la perspectiva de entender los beneficios del producto SRM.

314

Captulo 10: La recuperacin del sitio, sin VMware SRM

315

Reconocimiento especial
Quisiera agradecer personalmente a tres personas que me ayudaron directamente en esta seccin con referencias especiales en PowerShell. Me gustara dar las gracias, en particular, a Carter Shanklin, Manager del producto VMware PowerShell Toolkit, quien siempre responda felizmente a mis mensajes de correo electrnico. Adems, quiero dar las gracias a Hal Rottenberg, a quien conoc por primera vez a travs de la comunidad VMware. Hal es el autor de un nuevo libro llamado "Gestin de VMware Infrastructure con PowerShell". Si desea obtener ms informacin acerca de la potencia de PowerShell, sin duda, le recomiendo chequear y unirse al foro de la comunidad VMware VMTN y comprar su libro. Por ltimo, quiero dar las gracias a Luc Dekens, del foro de PowerShell, quien fue especialmente til explicando cmo crear un switch virtual con PowerShell.

Introduccin
Una de las ironas o paradojas interesantes que descubr a la hora de escribir este libro, fue Que pasa si en el momento de ejecutar mi plan DR, VMware Recovery Manager falla o no est disponible?. Dicho de otro modo, cul es nuestro plan de recuperacin para SRM!?. Bromas aparte, se trata de una pregunta que merece la pena considerar. No tiene mucho sentido el uso de cualquier tecnologa sin un plan B, por si el plan A no funciona como esperbamos. Dado que la clave de cualquier plan de recuperacin es la replicacin de datos a un sitio de recuperacin, el elemento ms importante est a cargo de su cabina de almacenamiento y no por VMware SRM. Recuerde que todo lo que VMware SRM est haciendo es automatizar un proceso manual. Por lo que detrs de este captulo, hay realmente dos grandes agendas. La primera es, como hacer manualmente todo lo que hace VMware SRM en el caso de que nuestro plan A no funcione. Y la segunda es, mostrarle que SRM es increblemente til para automatizar este proceso. Espero que pueda ver en este captulo, lo difcil que es la vida sin VMware Site Recovery Manager. Como cualquier proceso de automatizacin o de secuencias de comandos, usted no ve realmente las ventajas hasta que sepa como es el proceso manual. Con esto en mente, podra haber empezado con este captulo en el captulo 1 o 2, pero pens que usted deseara profundizar en SRM, que es el tema de este libro, y guardar este contenido para el final. Esto tambin le dar una idea de lo que SRM hace en el fondo, que es hacer su vida mucho ms fcil. La gran ventaja de SRM, para m, es que crece y reacciona a los cambios de su sitio protegido, algo a lo que un proceso manual tendra niveles mucho ms altos de mantenimiento para lograrlo. Como parte de la preparacin de este captulo, he decidi suprimir la proteccin de los grupos y los planes de recuperacin asociados a nuestra configuracin bidireccional de mi sitio de recuperacin (Reading). La recuperacin manual de mquinas virtuales exigir alguna gestin de almacenamiento, como detener el actual ciclo de replicacin y promover el "volumen remoto" en un volumen primario o principal de lectura-escritura. Mientras que SRM hace esto automticamente por usted, a travs del SRA de su proveedor de almacenamiento, en una recuperacin manual, tendr que hacerlo por s mismo. Esto es asumiendo que todava tienen acceso a la cabina en el sitio de proteccin,

316

como ocurre con una ejecucin planeada de su plan DR. Adems, una vez que la replicacin se ha detenido, tendremos que conceder acceso a los servidores ESX del sitio de recuperacin a la ltima instantnea buena que fue tomada. Por parte de los servidores ESX, una vez concedido el acceso a los volmenes, estos tendr que ser manualmente re-escaneados para asegurarse de que el volumen VMFS ha sido montando en los servidores ESX. Basndose en nuestras necesidades y la visibilidad de la LUN, tendremos la opcin de no hacer el resignature o forzar una resignature del volumen VMFS. Despus de haber "lidiado" con la parte de almacenamiento, tendremos que editar el archivo VMX de cada mquina virtual y mapear este a la red correcta. Despus de hacer esto, estaramos en condiciones de empezar a aadir cada mquina virtual en el sitio de recuperacin y por cada mquina tenemos que decirle al cliente Vi que grupo, carpeta y resource pool va utilizar. En un mundo ideal, parte de la gestin de la mquina virtual podra ser hecha va secuencia de comandos, utilizando diferentes kits de desarrollo de software de VMware como Perl Scripting ToolKit, el PowerShell Scripting Toolkit o el SDK de vCenter con el lenguaje de su eleccin - VB, C#, etc. Tengo la intencin de utilizar el PowerShell Toolkit para VMware como un ejemplo. Como podr ver, las secuencias de comandos, es un proceso muy laborioso y tedioso. Fundamentalmente, es un proceso muy lento por lo que impactara sobre la rapidez en su proceso de recuperacin. Piense en todas las RTOs y RPOs.

Para una recuperacin no planificada


Para la recuperacin no planificada, hay que apagar las mquinas virtuales que se estn ejecutando en produccin, antes de administrar el almacenamiento. Si recuerda, los primeros pasos de cualquier recuperacin prevista, es apagar las mquinas virtuales en el sitio protegido.

Si usted est haciendo un failover manual con fines de prueba no es necesario.

Gestionar el almacenamiento
Sin un SRA, tendremos que participar ms con las herramientas del vendedor de almacenamiento para el control de las instantneas y la replicacin. Este rea es muy especfica de los proveedores, por lo que le aconsejo se lea la documentacin. En el caso de VSA Lefthand Networks, seran los siguientes pasos. Actualmente, el grupo RecoveryManagementGroup (Reading) tiene la copia primera y el grupo ProtectedManagement (Londres) tiene la copia remota, mantenido por un ciclo de

317

instantneas programado. Necesitar dar acceso a los servidores ESX a la ltima instantnea o volumen replicado, aadiendo esta a una lista de volumen existente. 1. Entre en el VSA Lefthand Networks como administrador 2. Seleccione el ProtectedManagementGroup y, a continuacin, seleccione la pestaa Volume Lists 3. Seleccione un volumen existente de la lista y aada la ltima instantnea a la lista

Nota: En el ejemplo anterior estoy dando acceso a mi servidor ESX en Londres a la ltima instantnea de mi volumen virtualmachines (776).

VMware PowerShell Toolkit


Las siguientes secciones discuten el proceso manual de aadir las mquinas virtuales en vCenter y dejarlas listas para encenderlas. Tambin he decidido mostrarle cmo hacer las mismas tareas con PowerShell. Lo que sigue es casi una gua de configuracin para PowerShell. En primer lugar, descarge e instale, Windows PowerShell V2 Community Technology Preview 2 (CTP2). Pondra la URL en el libro, pero es demasiado larga y, en ltima instancia, es muy probable que cambie. En la actualidad, la versin oficial de Microsoft PowerShell es la versin 1. Habr una versin 2 muy pronto aunque en la actualidad slo est en fase de revisin.

318

Despus, usted tendr que descargar e instalar el VMware PowerShell Tookit (en realidad se llama Vi3 Toolkit): http://www.vmware.com/support/developer/windowstoolkit/beta/windo wstoolkit-200803-releasenotes.html Luego usted tendr que abrir sesin de PowerShell, y descargar VMware PowerShell Community Extensions. (new-object net.webclient).DownloadString("http://communities.vmware.com/servlet /JiveServlet/downloadBody/6051-102-1-3481/Extensions.psm1") > $env:temp/Extensions.psm1 add-module $env:temp/Extensions.psm1 Una vez descargado, usted podr instalarlo con el siguiente comando: add-module $ env: temp/Extensions.psm1 PRECAUCIN: Descubr que tena que repetir este proceso cada vez que abra una nueva sesin de PowerShell. Para conectarse y acceder al vCenter, use el comando get-vc de este modo: get-vc londonvc.rtfm-ed.co.uk user administrator password vmware

ADVERTENCIA: Me imagino que esto cambie antes de que el libro sea publicado. Si usted tiene dificultades para encontrar los diferentes programas y enlaces, este es un buen lugar para empezar. Yo he usado esta web como punto de partida para descargar todos los archivos binarios que necesitaba. http://blogs.vmware.com/vipowershell/2008/06/fun-with-powers.html SUGERENCIA: Entiendo lo difcil que es escribir todos estos cdigos a mano, y siendo este un libro en papel, no hay opciones de cortar y pegar. Por lo tanto, he cogido todos estos ejemplos de PowerShell y los he puesto en un archivo de texto. Puede descargar este archivo de texto desde el sitio web para

319

poder cortar y pegar, y cambiar las variables tales como los nombres de sus mquinas virtuales y recursos piscina nombres. http://www.josemariagonzalez.es/srm.html

Escanear las HBAs de cada servidor ESX


Usted debe de saber, ms que suficiente, cmo re-escanear un servidor ESX, bien desde la GUI o mediante el CLI. Lo que usted necesita es que aparezca un nuevo volumen VMFS.

Este re-escaneo tiene que ser hecho una vez por cada servidor ESX, y sera muy laborioso tener que hacerlo a travs del cliente Vi. Por supuesto, usted podra entrar con PuTTy y usar el comando esxcfg-rescan. Personalmente, prefiero utilizar el Remote CLI para Windows, el cual puede ser instalado en el mismo sistema de gestin donde est instalado el PowerShell de VMware. Con el RCLI para Windows podemos utilizar el script esxcfg-rescan.pl esxcfg-rescan.pl --server esx1 --username root --password vmware vmhba32 El siguiente comando de PowerShell, rescanea todos los hosts ESX en vCenter, lo cual es mucho ms eficiente desde una perspectiva de secuencias de comandos. get-vmhost | vmhoststorage-get-rescanallhba

Nota: La sintaxis del comando de PowerShell anterior es relativamente fcil de explicar. Get-vmhost recupera todos los nombres de los servidores ESX en el vCenter y esto es enviado al comando get-vmhoststorage para re-escanear todos los servidores ESX. Get-vmhoststorage soporta la opcin -rescanALLhba que hace exactamente lo que usted piensa. Usted podra encontrar que el volumen VMFS no refleja el nombre original del DataStore. Esto depende en gran medida de si se ha hecho el resignatured, ya sea mediante SRM o manualmente utilizando la configuracin avanzada del servidor

320

ESX. Si usted desea cambiar el nombre del volumen VMFS como lo hace SRM, despus de una resignature, puede utilizar este comando de PowerShell. set-datastore -datastore (get-datastore *london_virtualmachines) name london_virtualmachines

Nota: Set-datastore se puede utilizar para cambiar el nombre del volumen VMFS y el nombre del dataStore con la opcin -name. Usado en conjuncin con el comando get-datastore cmdlet, podemos buscar (usando un comodn *) por el volumen VMFS que incluya la cadena "london_virtualmachines", y cambiarle el nombre original al volumen VMFS y datastore.

Crear una red interna para las pruebas


Es parte de mi configuracin estndar crear en todos mis servidores ESX, un port group llamado "internal", el cual es un switch dedicado que no tiene mapeada ninguna tarjeta fsica.

Sin embargo, usted podra querer emular la forma en la que SRM hace sus pruebas para los planes de recuperacin, creando una red de test llamada "testbubble".

321

La creacin de los switches virtuales en la versin beta de VMware PowerShell es bastante complicado. Este hecho fue resaltado por el equipo de VMware PowerShell, y es probable que sea ms fcil en la prxima versin. El comando PowerShell para crear esto es un poco largo: {noformat} $MyvSwitchName = "testBubble-1 vswitch" $MynumPorts = 64 $MyPortGroupName = "testBubble-1 group" $MyvlanID = 0 Get-VMHost | %{Get-View (Get-View $_.ID).configmanager.networkSystem} | %{ $vSwitchSpec = New-Object vmware.vim.HostVirtualSwitchSpec $vSwitchSpec.numPorts = $MynumPorts $_.AddVirtualSwitch($MyvSwitchName,$vSwitchSpec) $PortgroupSpec = New-Object vmware.vim.hostportgroupspec $PortgroupSpec.vswitchname = $MyvSwitchName $PortgroupSpec.Name = $MyPortGroupName $PortgroupSpec.vlanID = $MyvlanID $PortgroupSpec.policy = New-Object VMware.Vim.HostNetworkPolicy $_.AddPortGroup($PortgroupSpec) } {noformat} Nota: En este caso, en la parte superior de la secuencia de comandos de PowerShell, tenemos un nmero de variables que se definen como el nombre del switch virtual, nmero de puertos (16,32,64 hasta 1024) y, el primer nombre portgroup sin ajustes VLAN. Este script no crea ningn switch virtual. Para correr este script, usted tiene que abrir una sesin de PowerShell y guardar el contenido en un archivo de comandos PowerShell (. Ps1) con: notepad vswitch.ps1 y para ejecutar el script debera escribir: . \ vswitch.ps1

Aadir mquinas virtuales en el Inventario


1. En uno de los servidores ESX 2. Navegue por datastore que contiene las mquinas virtuales 3. Haga clic derecho en el archivo VMX y elija Add to Inventory

322

4. En el subsiguiente cuadro de dilogo, seleccione un DataCenter y una carpeta en donde almacenar su mquina virtual

Nota: Usted no tiene que especificar un nombre para su mquina virtual, lo que provoca que vCenter lea el archivo VMX por el campo displayName = "..." 5. Seleccione el Servidor ESX o Cluster

323

6. A continuacin, seleccione un resource pool para la mquina virtual

Nota: Usted debera ser capaz de encender la mquina virtual. Usted tendr que cambiar manualmente su direccin IP en el sistema operativo invitado. Es posible automatizar la adicin de una mquina virtual al servidor ESX (no a un clster), utilizando la lnea de comandos del servidor ESX llamado vmware-cmd. Lamentablemente, este comando no puede manejar los metadatos de vCenter, tales como la ubicacin de la carpeta y los resource pools. Recuerde que usted tendr que repetir estos pasos por cada mquina virtual que debe ser recuperada. Quizs, una mejor forma de hacerlo es utilizando algunos PowerShell. Podemos usar el cmdlet get-datastorefile y get-datastore para proporcionar una lista de todas las mquinas virtuales en el DataStore.

324

get-datastorefiles (get-datastore london_virtualmachines) | where { $_.Path -match '.vmx$'} | select path

Nota: Este fragmento de PowerShell, listas todas las carpetas y archivos (getdatastorefiles) en un determinado volumen VMFS, el cual es recuperado por el get-datastore cmdlet. Esto es filtrado a travs de una bsqueda (seleccione ruta) para mostrar nicamente la informacin sobre la ruta, donde la carpeta contiene un archivo VMX. Por ltimo, la salida es filtrada de nuevo, slo para mostrar rutas de archivos en este formato. [london_virtualmachines] / ctx1/ctx1.vmx Una vez que tenemos el camino, podemos pensar en tratar de registrar la mquina virtual. Hay un register-VM cmdlet, que podemos utilizar para manejar todo el proceso de registro, incluyendo el servidor esx, carpeta, y la ubicacin resource pool en el inventario del vCenter inventario: register-VM "[london_virtualmachines] ctx-1/ctx-1.vmx" -vmhost (getvmhost esx3.rtfm-ed.co.uk) -resourcepool (get-resourcepool London) folder (get-folder "London VMs" | get-folder primary)

Nota: Espero que lo anterior tenga sentido para usted. La razn por la que he puesto -folder (get-folder "Reading VMs" | get-folder primary), es porque tengo dos carpetas, una en Londres y otra en Reading. La salida puede ser redireccionada al Register-VMs cmdlet, para registrar todas las mquinas virtuales que se encuentran en ese dataStore: $vmxpath = get-datastorefiles (get-datastore reading_virtualmachines) | where { $_.Path -match '.vmx$' } | select path | % { Register-VM $_.Path -vmhost (get-vmhost esx3.rtfm-ed.co.uk) -resourcepool (getresourcepool London VMs) -folder (get-folder "London VMs" | getfolder primary) } Nota: La nica diferencia aqu es la inclusin de $vmxpath y l %. En este caso estamos haciendo la ruta de acceso a los archivos de la VMX una variable y, a continuacin, enviamos el resultado al comando Register-VM, a fin de que cada mquina virtual (VMX ruta de archivo) descubierta en reading_virtualmachines VMFS es registrada en el sistema.

325

Recuerde que este proceso de registro, tendra que ser repetido por todos y cada uno de los volmenes VMFS y para cada mquina virtual que necesite un proceso de recuperacin.

Arreglar los archivos VMX


Usando nano o vi, en el servicio de consola, edite el archivo VMX de cada mquina virtual, para arreglar el portgroup utilizado para la comunicacin. ethernet0.networkName = "vlan61" tiene que ser ethernet0.networkName = "internal"

Por supuesto, tiene que repetir esto por cada mquina virtual. Si usted aade primero su mquina virtual en el vCenter (nuestra prxima tarea), puede automatizar el cambio de propiedad (como he mencionado anteriormente) con PowerShell para VMware. get-vm | get-networkadapter | sort-object -property "NetworkName" | where {'vlan21' -contains $_.NetworkName} | Set-NetworkAdapter NetworkName testBubble-1 group

Usted podra utilizar, el comando de servicio de consola 'sed', para buscar y reemplazar la cadena del port group dentro del archivo VMX, pero creo que el

326

mtodo de PowerShell es ms limpio. Una vez ms, esta secuencia de Powershell usa get-vm y get-network para encontrar la informacin de cada mquina virtual y la de configuracin del portgroup. Despus, es ordenado y luego se filtra para mostrar slo las mquinas virtuales con portgroup vlan61. Una vez es filtrado y es enviado al comando set-networkadapter cmdlet, el cual ajusta todas las mquinas virtuales con vlan61, sustituye el contenido del portgroup con el valor "internal".

Conclusiones
Como puede ver, el proceso manual es un proceso de "mano de obra" muy intensivo, lo cual es esperado por el uso de la palabra manual. Usted puede tener la impresin de que este problema puede ser arreglado por algn sper-script de PowerShell. Puede que incluso haya pensado, por qu necesito SRM si tengo estas secuencias de comandos PowerShell?. Sin embargo, no es tan simple como parece por dos razones principales. Lo primero es que no hay realmente soporte para esta solucin DR y, en segundo lugar, usted puede dedicar todo el tiempo que quiera probando sus scripts, pero luego su entorno cambiara y los scripts se quedaran obsoletos, lo que supondra un sinfn de re-ingeniera y re-anlisis. De hecho, la verdadera razn por la que quise escribir este captulo es para mostrar cmo de "doloroso" es el proceso manual y mostrarle as los verdaderos beneficios de SRM.

Fin - Conclusiones finales


Bueno este es el final del libro, y me gustara aprovechar esta ltima parte hacer algunas observaciones y conclusiones finales acerca de VMware Site Recovery Manager y VMware en general. La primera vez que empezar a trabajar con productos VMware fue a finales del ao 2003. De hecho, no fue hasta el ao 2004 que me involucre seriamente con VMware ESX y VirtualCenter. Por lo tanto, veo que estamos todos ante una enorme curva de aprendizaje ya que incluso nuestros llamados expertos, gurs y evangelistas, son relativamente nuevos en la virtualizacin. Pero como siempre en nuestra industria, hay gente muy fuerte que trabaja en el campo que reaccion de una forma ms brillante al cambio radical que he visto venir cuando vi por primera vez una demostracin de VMotion. Se ha hablado mucho de cmo los hipervisores se estn convirtiendo en un commodity. Todava creo que estamos un poco lejos de llegar a esto, como demuestra la concesin de licencias de VMware - todava hay una prima que se cobra en la capa de virtualizacin. Pero las cosas estn cambiando y los competidores de VMware se estn poniendo al da, aunque no tan rpido como a veces pensamos. Esta situacin es mala para todos los interesados, incluyendo VMware. Las empresas crecen cuando tienen un mercado para crear o defender. Desde la redaccin de este libro, ESX3i se ha convertido en un producto libre, por lo que ahora podra argumentar que el hipervisor es un commodity. Sin embargo, esto significa que ahora el dinero se ha trasladado a la gestin y SRM est firmemente en ese campamento. Pero veo un cambio que igualmente es ssmico, en cuanto a que ha producido una verdadera revolucin en nuestras herramientas de gestin, porque, sencillamente, las antiguas herramientas de gestin, simplemente no estaban a la altura. No son

327

conscientes de las maquinas virtuales. Es una pena que vmaware.com ya est registrado, sino fuera as, podra haber sido el nuevo nombre de RTFM! VMware est creando productos que tienen en cuenta las maquinas virtuales (Lab Manager, State Manager, Stie Recovery Manager, LifeCycle Manager y Virtual Desktop Manager). As que si es usuario de VMware, no espere ms y sbase a jugar con estas tecnologas, como lo he hecho yo, porque son "la prxima gran tecnologa" que siempre ha estado buscando en su carrera. Por ltimo, tengo una broma para usted. Estoy seguro de que en algn momento, en un curso de SRM, tendr este debate con un estudiante: Estudiante: SRM es un producto versin 1, verdad? Mike: As es. Estudiante: Oooh, la versin 1, normalmente significa que no es bueno verdad? Mike: Errrr, generalmente es as, si eres esa empresa de software grande en Seattle (risas generales del grupo ...). Por supuesto, lo que podras hacer es liberar un producto que ya tiene un Service Pack en s mismo - como Windows 2008, ya que esto ayuda a atraer clientes que no actualicen o adopten una versin 1, por lo menos hasta el primer Service Pack (ms risas del grupo ...) Estudiante: S, S, muy gracioso, pero en serio, est listo para la produccin? Mike: Bueno, piensa lo que ests diciendo aqu. Qu quieres decir con "listo para la produccin"?. Esto no es algo a lo que los usuarios finales se conectan como en Windows, ni es algo que permite que la infraestructura funcione como ESX. No est listo para la "produccin" pero que est listo para su sitio DR. Y aqu hay otro pensamiento - en ausencia de cualquier otra cosa o hacer todas las cosas que SRM hace manualmente - Que ms hara usted, salvo tener que dedicar una gran cantidad de trabajo manual o de secuencias de comandos. Y lo que es peor - cmo va a mantener todos de cosas que hasta la fecha se hacen manualmente?. Usted debe ver cmo es la vida sin SRM, quizs entonces la pregunta que me est haciendo le parecer a usted tan extraa como a m. Estudiante: S claro, (tengo un tipo inteligente por instructor de esta semana)

328

[root@josemariagonzalez.es]# FIN

329

Index
A
Architecture, 46 Array Manager, 43, 47, 67, 80, 85, 86, 88, 90, 98, 105, 113, 137, 171, 172, 173, 174, 186, 187, 188, 190, 195, 196, 220, 223, 224, 245, 246, 260, 270

C
Caution, 30 Configuring Array Managers, 80 Lefthand Networks VSA, 28 Priority Orders, 147 Shutdown of VMs, 143 Software iSCSI, 36 SRM Administrators, 209 Creating Alarm - Script, 199 Alarms - Email, 202 Alarms - SNMP, 200 Basic Recovery Plan, 108 New Networks, 171 New Virtual Machines, 171 Protection Groups, 96 Volume Lists and Authentication Groups, 33

D
Diagram, 8, 9, 10, 11, 46, 113, 233, 237

E
Error, 55, 129, 130, 132, 133, 134, 277

F
Failback, 51 Clean-up, 252 Clean-up Errors, 262 Failover Planned Failover, 233 Unplanned, 264 Failures, 70, 199, 266 File Level Consistency, 5

G
Gotchas, 54

I
Important, 30, 91, 111 Installing, 5, 45, 62, 67, 68, 75

330

Inventory Mappings, 71, 92, 93, 95, 104, 105, 158, 159, 161, 167, 171, 175, 192, 227, 248

L
Licensing, 42, 56

P
Parallel Host Start-Up Order, 148 Placeholder, 124, 198, 237, 253 Powershell, 150, 290 Add Virtual Machines, 286 Fix VM VLan Configuration, 289 Rescan HBAs, 283 Virtual Switches, 285

R
RDMs, 43, 56, 91, 96, 142, 185, 186, 187, 188, 241, 243, 247, 250, 252, 268, 269, 270, 273, 274, 275, 276, 277, 278 Recovery Plans, 56, 103, 108, 112, 126, 127, 128, 139, 141, 145, 148, 166, 177, 189, 193, 195, 196, 198, 199, 205, 208, 209, 213, 215, 251 Renaming DataCenters (Protection Site), 167 Datacenters (Recovery), 168 Resource Pools (Protection), 167 Resources Pools (Recovery), 142, 168, 169 Virtual Machines, 166 Virtual Switches (Protection), 167 Virtual Switches (Recovery), 169 VirtualCenter Objects, 166 Repair Array Manager Button, 195, 196

S
SRM Adding Commands, 150 Alarm - Script, 199 Alarms - Email, 202 Bidirectional Configuration, 219 Changes at the Protection Site, 161, 168 Changes at the Recovery Site, 168 Creating Protection Groups, 96 Custom Messages, 148 Customized VM Mappings, 158 Database, 58 Failback - RDM Errors, 268 Failback Clean-up, 252 Failback, after unplanned failover, 266 Failure to Protect VM, 104 Hardware Requirements, 51 Installation, 62 IP Address Reconfiguration, 152 Licensing, 56 Log Files, 216 Multiple Protection Groups and Recovery Plans, 189 Pairing, 74 Permissions and Access Control, 207 Permissions Limitations, 215 Planned Failover, 233 Plug-in, 68 RDMs, 185

331

Recovery Plan Events, 122 Recovery Plan History, 206 Release Notes, 54 Repair Array Managers, 195 Reports, 204 Service Failure, 70, 266, 267 Site Recovery Adapter, 66 SNMP, 200 Software Requirements, 48 Unplanned Failover, 264 Storage Multiple VMFS Volumes, 181 Principles & Caveats, 6 Replication Scenarios, 135 Storage VMotion, 179 Vendor Guides, 11

U
URLs, 3, 4, 11, 12, 15, 21, 50, 112, 121, 143, 144, 167, 200, 235, 282, 283

V
vmware-dr.xml, 54, 56, 59, 79, 124, 129, 137

W
Warning, 36, 61, 65, 70, 76, 77, 85, 103, 125, 129, 153, 177, 205, 209, 248, 250

332

Potrebbero piacerti anche