Sei sulla pagina 1di 69

OV201 :

Opsview System Administration

Miquel Ruiz Martin

Introduccin

Introduccin
Quien soy yo?
Quienes sois?
Nombre
A qu os dedicis
Experiencia previa con Opsview?
En qu estis ms interesados?

Qu vamos a aprender?

Objetivo del curso


Entender conceptos de monitorizacin
Entender la arquitectura Opsview
Realizar tareas comunes de configuracin y
administracin

Agenda

What is Opsview
Architecture & Installation
Service checks
Plugins
Active checks
Passive checks
State types
Acknowledgement
Determining status and reachability
using parent/child relationships
Notifications

Comments
Downtimes
Keywords
Contacts
Host Templates
Agents
Dashboard

Documentacin

Recursos http://docs.opsview.com

Qu es Opsview

Qu es Opsview?
Opsview es una herramienta open source de
monitorizacin de red, servidores y aplicaciones.
Opsview ofrece una interfaz web al usuario que
permite acceder a las vistas de monitorizacin y a la
configuracin del sistema.

Arquitectura

Master
Ofrece:
La interfaz web de
Opsview
El motor Nagios
La aplicacin Nagvis
La base de datos
Los grficos de
rendimiento

12

Servidor Master Arquitectura no


distribuida

13

Arquitectura de Opsview

15

Conceptos bsicos de monitorizacin

Servicios
Los servicios se
comprueban de forma
regular
Deben estar asociados
a un host

Si un servicio falla,
Opsview comprobar
si el host tambin falla

26

Hosts
Hosts = contenedores de varios servicios
Los hosts solo se comprueban cuando se
requiere
Cached Service Checks

Si la comprobacin de un host ha fallado


entonces comprobar si los padres del host
han fallado (disponibilidad de la red)
Si la comprobacin de un host ha fallado
entonces se generarn nicamente
notificaciones sobre l, no sobre sus
servicios

27

Tipos de Service Checks


Checks activos
Se ejecutan de forma
regular
Son iniciados por Nagios

Checks pasivos
Son iniciados por una
aplicacin externa. Ej.:
SNMP Traps
El estado de los checks
pasivos tiene que ser
cambiado manualmente
despus de un fallo
28

Estados de servicios y de hosts

29

Tipos de estado
objetivo: reducir el
nmero de falsos
positivos, ej: un puerto
de switch que vuelve a
estado normal
despus de un fallo
momentaneo
Soft = inicio probable
de un fallo

30

Tipos de estado
Hard un problema real
El estado de un servicio
pasar a HARD si:
Se ha alcanzado el valor
de max_check_attempts
Una transicin de un
estado Hard a otro estado
Hard
Si el host est en estado
DOWN o bien
UNREACHABLE

31

Intervalos de check

32

Relaciones padres-hijos
Usando relaciones padres-hijos, el motor de
monitorizacin puede determinar si un host
est fallando o bien es inalcanzable
Para que este mecanismo funcione, se
requiere indicar como los hosts estn
relacionados entre s desde el punto de vista
del master
33

KBS BANK Network

34

KBS BANK visto desde Opsview

35

Determinar el alcance por red

36

Determinar el alcance por red 2

37

Que son los Plugins


Todos los checks activos usan
un plugin
Disponen de la lgica para
determinar si algo est
funcionando o no
Toman parmetros para
establecer los diferentes
umbrales
Un mismo plugin puede ser
usado en diferentes servicios
Todos los plugins devuelven un
estado, informacin y
(opcionalmente) datos de
rendimiento
38

Notificaciones
Se generan:
Cuando hay algn cambio en el
estado Hard de un servicio o host
Cuando un host o servicio se
mantiene en un estado que no sea
OK
Cuando un servicio se recupera
Cuando se atiende un problema

41

Notificaciones (2)
Se generan notificaciones hasta que se
atiende la alerta o se pone un
downtime manual

Las notificaciones pueden mandar


emails, SMS, Tambin son plugins
El filtrado de notificaciones pasa por
varios niveles:
Las opciones de notificaciones del host o
servicio
El periodo de tiempo de las notificaciones
Las opciones contenidas en el perfil de
notificacin de cada usuario

El paso a estado OK tambin se


notifica

42

Notificaciones: Limitaciones
Se pueden lanzar desde el master y/o desde los
esclavos.
Limitacin: Las notificaciones de un esclavo
pueden no contener toda la informacin que
tiene el master, dado que la topologa padre/hijo
puede ser diferente.
Limitacin: Las notificaciones desde los esclavos
no se almacenan de forma centralizada.
43

Reconocer/Atender una alerta


Los reconocimientos son
una forma de detener las
notificaciones
Ideal para cadas no
planificadas
Desaparecen ante un
cambio de estado
Existe una pantalla para
hacer reconocimientos
masivos
44

Sticky & Non Sticky Alerts


This is the flow if sticky acknowledgements are applied:

= acknowledgement applied

45

Reconocido vs. no reconocido


Un servicio est reconocido
si:
El servicio est OK
El servicio est en tiempo de
downtime o ha sido
reconocido
El host est cado (DOWN o
UNREACHABLE)

Un host est reconocido si:


El host est UP
El host est en downtime o
reconocido
46

Reconocido vs. no reconocido


Los no reconocidos
son problemas
nuevos
Empezar el
diagnstico

47

Qu aporta Opsview?
Saber lo que pasa
sobre los sistemas
Poder detectar los
problemas por
adelantado
Un healthcheck,
ejecutndose
continuamente

48

Opsview no es
Una herramienta para
corregir
automticamente los
problemas
No sustituye a la
inteligencia del
personal tcnico

49

Interfaz de configuracin

Visualizacin por listas


Con opcin de bsqueda
Permite eliminar, duplicar y editar
Men contextual y otra informacin relevante

52

Vista de edicin
Las pantallas de
edicin tambin se
usan para crear
nuevos objetos y
objetos duplicados
Usa pestaas para
reducir la
complejidad de las
pantallas
Ayuda contextual
para la mayora de los
campos
53

Hosts
Estos son todos los hosts configurados en Opsview
Lo primero, rellenar la informacin acerca del
host.
Despus, seleccionar alguna plantilla, y todos los
checks adicionales que se requieran.
Se pueden consultar de forma automatizada las
interfaces del host va SNMP (extremadamente
til para dispositivos de networking)
Atributos de Host nueva funcionalidad para
guardar metadatos (discos, interfaces de red,
particiones, )
54

Service checks
Todos los servicios que se quieran comprobar
debern tener un service check
Agrupados para encontrarlos de forma fcil
Dependencias:
Slo son posibles dependencias en un mismo host
Caso de uso inicial: fallo del agente de
monitorizacin

Reportar cada fallo: sirve para checks pasivos

55

Otros tipos de service check


SNMP Polling Un tipo de check activo
basado en variables SNMP especficas
Check pasivo un servicio vacio
SNMP Traps - un sistema basado en reglas de
alertas en caso de traps
56

Plantillas de hosts (templates)


Cada plantilla del host tiene una lista
de service checks asociados
A un mismo host se le pueden
aplicar mltiples plantillas
El orden en que se aaden es
importante!!
Primero los monitores
especficos del host
Luego, segn el orden de las
plantillas del host
En el men contextual de cada host
se pueden consultar los service
checks que se le estn aplicando

57

Excepciones
Se pueden cambiar los parmetros indicados en el
plugin
Ejemplo de uso: Load average, cuando algunos hosts
tienen ms carga

Se puede cambiar el periodo de tiempo durante el


cual desea que cambien los parmetros
Ejemplo de uso: Mientras corren los backups, un
servidor tendr un aumento de carga temporal

58

Host groups y service groups


Clave para el control de acceso
Cada service check pertenece nicamente a
un nico grupo
Cada host pertenece nicamente a un host
group
Los host groups tienen jerarqua
Se pueden hacer modificaciones en dicha
jerarqua mediante drag & drop
Los host groups tienen algunas restricciones
59

Keywords palabras claves


Una palabra clave es una
seleccin de servicios
Se puede editar la lista de
hosts y servicios a partir de la
pgina de keyword
Se puede habilitar una ventana
de visualizacin y elegir su
estilo

60

Contactos
Un contacto es un usuario de
Opsview
Puede tener diferentes
esquemas de autenticacin.
Actualmente slo soporta
LDAP y autenticacin interna
Autorizacin basada en roles
Cada usuario tiene un perfil de
notificacin para determinar
qu alertas recibe

61

Niveles de acceso

VIEWALL, VIEWSOME - capacidad para ver


estados
NOTIFYSOME capacidad para recibir
alertas
ACTIONALL, ACTIONSOME capacidad para
realizar reconocimientos, etc
DOWNTIMEALL, DOWNTIMESOME
capacidad para definir downtimes
CONFIGUREHOSTS, CONFIGUREKEYWORD,
CONFIGUREVIEW Capacidad para
visualizar configuraciones
CONFIGURESAVE guardar configuracin
RELOAD capacidad para recargar Opsview
VIEWPORTACCESS capacidad para
visualizar viewport
RRDGRAPHS capacidad para ver grficos
ADMINACCESS - todo!

62

Roles por defecto


Role

View

Notification Action

Admin

Admin

Todos

Algunos

Todos

View all, change


some

Todos

Algunos

Algunos

No

Algunos

Algunos

No

Algunos

Ninguno

No

Algunos

Ninguno

No

View some, change Algunos


some
Todos
View all, change
none
View some, change Algunos
none

63

Que significa algunos? Parte 1


Lista de palabras claves

Y
La interseccin de host groups y service groups

64

Que significa algunos? Parte 1

65

Que significa algunos? Parte 2


La lista total de servicios es la unin de la
interseccin host group y grupo de servicio ms la
lista de servicios para las palabras clave.
Todos los hosts adecuados son aadidos tambin
Las duplicaciones no representan problema alguno
La interseccin host group y grupo de servicio es
interesante para equipos
La seleccin de las palabras claves son interesantes
para administradores o usuarios finales
A partir de Opsview 3.11.0: Los objetos de tipo
acceso se definen al nivel de rol
66

Servidores de monitorizacin
Lista todos los servidores
de monitorizacin en el
sistema Opsview
El enlace al estado del
esclavo muestra el
estado de los esclavos,
basndose en checks
generados
automticamente
Permite arrastrar y soltar
host entre los servidores
de monitorizacin
67

Host check command


Define el check que el
host usa para
determinar si est
cado
Generalmente usa un
ping, pero se puede
comprobar cualquier
otra cosa
Tambin son plugins
68

Mtodos de notificacin
Se pueden definir diferentes
mtodos: Email, SMS,
Puede definir si la
notificacin ser invocada
por el master o por el
esclavo que la inicia
Sorpresa!! Tambin son
plugins.

69

Punto de control
Cuntos tipos de plugins utiliza Nagios y para
qu se utilizan?
Puede haber contactos de slo lectura?
Un hostgroup puede contener otros
hostgroups?

Agentes

Por qu agentes?
Para monitorizar recursos
locales sobre mquinas remotas
Ej: CPU, uso de disco,
La informacin no se hace
pblica
Se requiere un agente para
recuperar esa informacin
Opsview usa 3 tecnologas de
agentes:
SNMP
SSH
NRPE

72

Agentes
SNMP : Simple Network Management
Protocol
Ms en el curso OV203.....

73

check_by_ssh
check_by_ssh ejecuta plugins en
remoto
Necesita acceder va SSH entre el
servidor que monitoriza y el host
remoto
Provee de autenticacin y
encriptacin
Menos administracin, pero ms
acceso libre desde Opsview

74

NRPE: Nagios Remote Plugin Executor


NRPE se ejecuta en mquinas
monitorizadas
Escucha a travs del puerto 5666
El servidor Opsview ejecuta
check_nrpe para conectar
La mquina ejecuta el plugin
localmente y devuelve el resultado
No hay autenticacin, pero el
trfico est cifrado
Se puede filtrar a nivel IP
Suele ser necesario abrir firewalls
No requiere acceso a la shell

75

Monitorizacin de servidores Unix/Linux

Cmo usar NRPE en UNIX


Instale el agente NRPE
Ya empaquetado para muchas
distribuciones de Linux/UNIX

/usr/local/nagios/etc/nrpe.cfg lista
qu plugins pueden ser ejecutados
command[check_disk]=/usr/local/nag
ios/libexec/check_disk $ARG1$

Para consultar un host por NRPE se


debe utilizar el plugin check_nrpe
desde Opsview

77

Monitorizacin de Servidores Windows

Monitoring Windows Servers


Agente Opsview para Windows
Basado en NSclient

Compatible con NRPE


Contiene funciones integradas
adems de la capacidad para
ejecutar cualquier programa

80

Resumen
Entender conceptos de monitorizacin
Entender la arquitectura Opsview
Realizar tareas comunes de configuracin y
administracin

82

Evaluacin del curso

www.surveymonkey.com/s/ov201

Potrebbero piacerti anche