Sei sulla pagina 1di 3

32-34- Autopsias-P20.

qxd 5/5/05 11:34 AM Page 34

FALLAS ANALIZADAS CON OJO CLINICO

+ LA AUTOPSIA DEL MES: SERVER CAIDO


i decimos que las computadoras cumplen un papel cada vez ms comprometido con nuestra vida cotidiana, nadie se va a sorprender, porque eso es algo ya asumido por la mayora de los usuarios de PC. Pero no todos los equipos cargan con la misma responsabilidad dentro de este mundo informatizado. Una PC de escritorio responde slo a uno o, a lo sumo, a un grupo reducido de usuarios, mientras que los servidores deben manejar los datos de varias decenas, cientos o miles de clientes. Pero adentrmonos ms en el servidor como equipo; pasemos a ver sus componentes, sus partes ms nfimas.

ANALISIS PRELIMINAR
Quin pensara que en el funcionamiento de una resistencia, que apenas cuesta algunos centavos, se deposita la responsabilidad de que miles de usuarios tengan acceso a su e-mail a tiempo? Por supuesto que servicios a gran escala, como MSN, no se van a dar el lujo de dejar todo parado hasta tanto se cambie una resistencia. En esos casos, directamente se cambia la placa completa, mientras el problema especfico se resuelve con ms tiempo. Pero no todos somos MSN y, hoy por hoy, existen muchos servicios menores en los que, quiz, s todo dependa de un solo servidor, que hay que reparar indefectiblemente ante una avera. Foros, sitios, servicios de mail empresariales, hosting y muchos otros a veces dependen de ese pequeo componente, y de la rapidez del tcnico de turno para encontrarlo y repararlo. Este es el caso que planteamos en esta ocasin: un conocido foro dedicado a temas generales de un momento a otro desaparece, y deja a sus usuarios incomunicados.

ESTA ES UNA PARTE DEL RACK DONDE SE ENCONTRABA EL SERVIDOR ANALIZADO EN ESTA AUTOPSIA. EN ESTE TIPO DE EQUIPAMIENTO, LAS MEDIDAS DE SEGURIDAD CON RESPECTO A LA ALIMENTACION DEBEN SER MUY RIGUROSAS.

HISTORIA CLINICA
Aunque parezca tonto, un foro es un canal de comunicaciones muy importante en la actualidad. En muchos casos, es el nico medio de contacto que tienen algunos usuarios entre s, y su ausencia puede significar una prdida de tiempo considerable en la resolucin de algn problema. Varias empresas y universidades usan foros privados para interconectar a sus participantes, y no son pocos
34

los casos en los que las actividades son planteadas y coordinadas en base a lo que en ellos se postea. Imagnense que si un espacio de estas caractersticas se cae de un momento a otro, todos aquellos que no copiaron la informacin y confiaron en que todo estaba ah guardado quedarn a la deriva hasta tanto no puedan volver a acceder. Eran las 21 horas de un mircoles bastante rutinario en el laboratorio de anlisis de hardware de MP. Cuando estbamos dispuestos a apagar todo e irnos, son el telfono, y una voz temblorosa nos hizo predecir que sa iba a ser una larga noche. El servidor del foro de una importante universidad se acababa de desconectar, justo en la semana en la que se tenan que coordinar los trabajos finales para la mayora de las carreras. Miles de alumnos acostumbrados a entrar en ese sitio a diario veran imposibilitadas sus tareas, ya que la URL devolva tan slo un No se puede mostrar la pgina. Luego de comprobar, en forma remota, que el equipo no responda a ninguna de las demandas, decidimos mandar a retirar el servidor del rack en donde estaba instalado. Una vez

en el laboratorio, pudimos corroborar que ni siquiera encenda, lo que haca suponer que la falla se deba, estrictamente, a un problema de hardware.

PRIMEROS PASOS
Tal como lo indica la rutina, siempre que un equipo no enciende, hay que empezar por analizar el elemento encargado de brindar la corriente necesaria, o sea, la fuente de alimentacin. Bastaron un par de mediciones al azar para darnos cuenta de que la fuente no estaba entregando corriente en ninguna de sus salidas. Procedimos entonces a desarmarla y a revisar su interior. A primera vista encontramos una serie de componentes daados en la etapa secundaria. Varias resistencias y diodos mostraban claros signos de haber sufrido un exceso de calor, y haba abundante holln esparcido a su alrededor. Aparentemente, el cortocircuito de alguno de ellos haba provocado una sobretensin importante en la zona. En casi todos estos casos, se piensa en una falla interna de la unidad, ya que la alimentacin proveniente del exterior se encuentra protegida y filtrada por equipos UPS de gran capacidad. Sin perder
POWERUSR

32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 35

SI LA AVERIA EN CUALQUIER PC DE ESCRITORIO RESULTA PROBLEMATICA PARA EL USUARIO PROMEDIO, IMAGINENSE LO QUE PUEDE ACARREAR LA FALLA TOTAL EN UN SERVIDOR. EN LA AUTOPSIA DE ESTE MES, VAMOS A TRATAR EL CASO DE LA DRAMATICA CAIDA DE UN EQUIPO DE ESTAS CARACTERISTICAS, Y SUS CONSECUENCIAS.

demasiado tiempo, procedimos al reemplazo de la fuente completa, dado que la urgencia no nos permita detenernos a cambiar cada uno de sus componentes. Al reconectar todo otra vez, el equipo volvi a encender, pero el BIOS marcaba ahora una falla en la alimentacin de los microprocesadores. Habamos avanzado un paso, pero todava quedaba mucho por delante.

ANALISIS DEL MOTHERBOARD


El motherboard era un Intel LG440GX+, con dos procesadores Pentium III de formato Slot 1, 4 GB de memoria RAM, cuatro discos SCSI conectados a una controladora dual-channel incorporada y una controladora de red Intel PRO/100+ integrada. Se trataba de un equipo que, si bien hoy en da puede considerarse un poco desactualizado, tiene excelentes prestaciones para las demandas de un foro. Lo primero que verificamos fue que la fuente nueva estuviera entregando efectivamente todos sus valores correspondientes. No sera la primera vez que una fuente de alimentacin fallara en su primer arranque, aunque ste no era el caso: todas las tensiones estaban presentes y entrando correctamente al motherboard. Procedimos a retirar la placa del gabinete para analizarla con ms detenimiento. Fue entonces cuando nos encontramos con una serie de pistas cortadas en su cara inferior, que mostraban claros signos de un corte por exceso de tensin. Esto se pone de manifiesto por las marcas negras que quedan en la zona del corte. Se procedi entonces a la reconstruccin de las pistas, utilizando finos alambres de cobre aislados con un spaghetti plstico. Una vez reestablecidas las unio-

ESTE ES EL MOTHERBOARD ANALIZADO, UN INTEL LG440GX+, CON SOPORTE PARA DOS PROCESADORES PENTIUM III DE FORMATO SLOT 1.

LA PRESENCIA DE HOLLIN DEBAJO DE ESTAS RESISTENCIAS EVIDENCIABA UN FUERTE GOLPE DE TENSION EN ESE SECTOR.

nes, se efectu un control de rutina de todos los componentes que podran haber sido afectados por la avera. Este es un procedimiento muy importante que debe realizarse antes de encender la unidad, ya que si existi un golpe de tensin capaz de cortar las pistas del circuito, es ms que probable que algn sector haya sufrido tambin las consecuencias. El riesgo ms grande se presenta ante la posibilidad de que alguno de los elementos encargados de manejar la corriente est todava en cortocircuito, y entonces genere otra fuga importante, quiz, con males mayores. El BIOS haba delatado una falla en la alimentacin del microprocesador, por lo que nos dirigimos en forma inmediata al sector encargado de regular la tensin de entrada. Este se ubica prximo a los dos zcalos que contienen los cartuchos con los procesadores. All se destacan una serie de bobinas, capacitores y transistores que forman una minifuente conmutada, dedicada, casi exclusivamente, a proveer de tensin a cada uno de los cartuchos. La mayor parte de este sector estaba sana, salvo los dos transistores reguladores, que mostraban un cortocircuito entre dos de sus patas. Ahora s, tenamos a la segunda vctima de esta fuga repentina de tensin.

Afortunadamente, el laboratorio contaba con repuestos para estos reguladores, si no, hubiramos tenido que esperar varios das hasta conseguir los componentes adecuados. En estos casos, se trata de proceder con un plan de emergencia que permita reemplazar el servidor completo momentneamente. Una vez reemplazados ambos reguladores, se hizo otra revisin de rutina a todas las partes involucradas, y no se detect ninguna anormalidad. Entonces s, con ms tranquilidad, procedimos a encender el equipo y comprobamos, para nuestra tranquilidad y la de la gente de la universidad, que todo volva a operar con normalidad. Para entonces, el reloj indicaba las 4 a.m. Sin dudas, una situacin por dems estresante, pero con buenos resultados para los alumnos que, al otro da, ingresaron en el foro para realizar sus actividades diarias, sin siquiera enterarse de que una pequea resistencia casi los haba dejado sin el contacto tan necesario.

CAUSAS
Como ya mencionamos en el transcurso de esta autopsia, es difcil encontrar factores externos que puedan causar esta falla. Los racks dedicados a contener servidores son cuidados al extremo en lo que a la alimentacin se refiere:
35

POWERUSR

32-34- Autopsias-P20.qxd 5/5/05 11:35 AM Page 36

EN UN CASO QUE SE PODRIA CONSIDERAR NORMAL, UN ELEMENTO COMO UNA RESISTENCIA O UN TRANSISTOR DEBERA ABRIRSE Y CORTAR LA CORRIENTE. EL PROBLEMA SURGE CUANDO EL ELEMENTO SE PONE EN CORTOCIRCUITO.

36

ESTE ES EL SECTOR ENCARGADO DE LA ALIMENTACION DE LOS PROCESADORES. EN ESTA LINEA DE INTEL, SE ENCUENTRA JUSTO ENTRE MEDIO DE LOS ZOCALOS CORRESPONDIENTES A LOS MICROPROCESADORES.

EN CASOS EN LOS QUE LAS PISTAS DEL CIRCUITO SON DEMASIADO FINAS Y ABULTADAS, DEBEMOS UTILIZAR HILOS AISLADOS EN SPAGHETTI, PARA EVITAR EL CONTACTO CON OTROS SECTORES. UNA GOTA DE SILICONA DERRETIDA ES UNA EXCELENTE AYUDA PARA FIJAR EL CONDUCTOR A LA PLACA.

potentes UPS y filtros se encargan de asegurar una alimentacin permanente sin sobresaltos. El nico enemigo mortal e imparable es la descarga atmosfrica o rayo, pero ste no haba sido el caso. Entonces, no quedaba ms que suponer una fatiga propia de los componentes de la fuente. Esto es algo muy comn en cualquier equipo que se somete a un trabajo constante, ms an, teniendo en cuenta la cantidad de elementos que se arman con partes de bajsimo costo de produccin. En un caso que se podra considerar normal, un elemento como una resistencia o un COMPONENTES DE SUPERFICIE
Quienes posean alguna experiencia en el armado de circuitos electrnicos caseros, tendrn un concepto formado en relacin al aspecto que suele identificar a la mayora de los componentes bsicos. Ahora bien, por ms pequeos que stos parezcan, para las necesidades de la electrnica actual, nunca se es lo suficientemente pequeo. Es por eso que, en muchos de los equipos modernos, encontramos lo que se denomina componente de superficie: resistencias, diodos, capacitores y una gran variedad de dispositivos que son comprimidos varias veces en su tamao y soldados sobre la superficie misma

transistor debera abrirse y cortar el paso de la corriente. El problema surge cuando aparece ese pequeo porcentaje de casos en los que el elemento se pone en cortocircuito. Entonces, la corriente fluye sin control y provoca picos de tensin que son capaces de generar cualquier tipo de fallas, hasta tanto no se corte el suministro de energa. En esta situacin particular, el corto se produjo

de la pista conductora, sin necesidad de perforaciones en la placa; de ah el porqu de su nombre. Las caractersticas generales son idnticas a las de los componentes estndar, la diferencia est al momento de efectuar reemplazos. Este proceso puede ser un tanto ms complicado y demandar el uso de herramientas especficas para manipular este tipo de elementos. En algunos casos, de ser estrictamente necesario, es posible usar como recambio un repuesto estndar, siempre y cuando podamos adaptar sus conexiones y respetemos las caractersticas al detalle.

en un transistor de la etapa secundaria, comprometido con la regulacin de corriente de salida. Esto provoc la avera general de varias de las partes involucradas a este sector; incluso, se extendi al propio motherboard. Si tenemos que definir un responsable, no hay otra alternativa ms que volcarnos a una simple cuestin fortuita. Si la falla se hubiera generado en la etapa primaria, difcilmente habra existido algn traslado hacia la salida de la fuente, ya que las protecciones actan antes que cualquier exceso supere este sector. La etapa secundaria tambin cuenta con protecciones, pero hay factores que escapan a cualquier previsin y, si bien llegado un punto, el suministro de energa se corta, para entonces es imposible determinar el dao de las partes comprometidas. Por fortuna, en este caso todo se detuvo en los transistores reguladores. En otras oportunidades, nos encontramos con situaciones en las que la cadena sigui ms all, y lleg a afectar, incluso, a los propios microprocesadores o unidades de disco. Para concluir, la prxima vez que vean una resistencia, transistor, capacitor o cualquier elemento encargado del manejo de corriente, trtenlo con ms respeto; quizs de ellos dependa su trabajo de maana. s
POWERUSR

Potrebbero piacerti anche