ov201-v2 opsview intro

OV201 : Opsview System Administration

Miquel Ruiz Martin

Introducción

• Quien soy yo?

• Quienes sois?

– Nombre

– A qué os dedicáis

– Experiencia previa con Opsview?

– En qué estáis más interesados?

• Qué vamos a aprender?

Objetivo del curso

• Entender conceptos de monitorización

• Entender la arquitectura Opsview

• Realizar tareas comunes de configuración y administración

Agenda

• What is Opsview

• Architecture & Installation

• Service checks

• Plugins

• Active checks

• Passive checks

• State types

• Acknowledgement

• Determining status and reachability using parent/child relationships

• Notifications

• Comments

• Downtimes

• Keywords

• Contacts

• Host Templates

• Agents

• Dashboard

Documentación

Recursos http://docs.opsview.com

Qué es Opsview

Qué es Opsview?

• Opsview es una herramienta open source de monitorización de red, servidores y aplicaciones.

• Opsview ofrece una interfaz web al usuario que permite acceder a las vistas de monitorización y a la configuración del sistema.

Arquitectura

Master

• Ofrece:

– La interfaz web de Opsview

– El motor Nagios

– La aplicación Nagvis

– La base de datos

– Los gráficos de rendimiento

Servidor Master – Arquitectura no distribuida

Arquitectura de Opsview

Conceptos básicos de monitorización

Servicios

• Los servicios se comprueban de forma regular

• Deben estar asociados a un host

• Si un servicio falla, Opsview comprobará si el host también falla

• Hosts = contenedores de varios servicios

• Los hosts solo se comprueban cuando se requiere – Cached Service Checks

• Si la comprobación de un host ha fallado

entonces comprobará si los padres del host han fallado (disponibilidad de la red)

• Si la comprobación de un host ha fallado entonces se generarán únicamente notificaciones sobre él, no sobre sus servicios

Tipos de Service Checks

• Checks activos – Se ejecutan de forma

regular

– Son iniciados por Nagios

• Checks pasivos – Son iniciados por una

aplicación externa. Ej.: SNMP Traps

– El estado de los checks pasivos tiene que ser cambiado manualmente después de un fallo

Estados de servicios y de hosts

Tipos de estado

• objetivo: reducir el número de falsos positivos, ej: un puerto de switch que vuelve a estado normal después de un fallo momentaneo

• Soft = inicio probable de un fallo

Tipos de estado • Hard – un problema real • El estado de un servicio

pasará a HARD si: – Se ha alcanzado el valor

de max_check_attempts – Una transición de un

estado Hard a otro estado Hard

– Si el host está en estado DOWN o bien UNREACHABLE

Intervalos de check

Relaciones padres-hijos

• Usando relaciones padres-hijos, el motor de monitorización puede determinar si un host está fallando o bien es inalcanzable

• Para que este mecanismo funcione, se requiere indicar como los hosts están relacionados entre sí desde el punto de vista del master

KBS BANK Network

KBS BANK visto desde Opsview

Determinar el alcance por red

Determinar el alcance por red 2

Que son los Plugins

• Todos los checks activos usan un plugin

• Disponen de la lógica para determinar si algo está funcionando o no

• Toman parámetros para establecer los diferentes umbrales

• Un mismo plugin puede ser usado en diferentes servicios

• Todos los plugins devuelven un estado, información y (opcionalmente) datos de rendimiento

Notificaciones

• Se generan: – Cuando hay algún cambio en el

estado Hard de un servicio o host

– Cuando un host o servicio se mantiene en un estado que no sea OK

– Cuando un servicio se recupera

– Cuando se atiende un problema

Notificaciones (2) • Se generan notificaciones hasta que se

atiende la alerta o se pone un downtime manual

• Las notificaciones pueden mandar emails, SMS, … También son plugins

• El filtrado de notificaciones pasa por varios niveles: – Las opciones de notificaciones del host o

servicio – El periodo de tiempo de las notificaciones – Las opciones contenidas en el perfil de

notificación de cada usuario

• El paso a estado OK también se notifica

Notificaciones: Limitaciones

• Se pueden lanzar desde el master y/o desde los esclavos.

• Limitación: Las notificaciones de un esclavo pueden no contener toda la información que tiene el master, dado que la topología padre/hijo puede ser diferente.

• Limitación: Las notificaciones desde los esclavos no se almacenan de forma centralizada.

Reconocer/Atender una alerta

• Los reconocimientos son una forma de detener las notificaciones

• Ideal para caídas no planificadas

• Desaparecen ante un cambio de estado

• Existe una pantalla para hacer reconocimientos masivos

This is the flow if sticky acknowledgements are applied:

= acknowledgement applied

Sticky & Non Sticky Alerts

Reconocido vs. no reconocido

• Un servicio está reconocido si: – El servicio está OK

– El servicio está en tiempo de downtime o ha sido reconocido

– El host está caído (DOWN o UNREACHABLE)

• Un host está reconocido si: – El host está UP

– El host está en downtime o reconocido

Reconocido vs. no reconocido

• Los no reconocidos son problemas nuevos

– Empezar el diagnóstico

Qué aporta Opsview?

• Saber lo que pasa sobre los sistemas

• Poder detectar los problemas por adelantado

• Un healthcheck, ejecutándose continuamente

Opsview no es

• Una herramienta para corregir automáticamente los problemas

• No sustituye a la inteligencia del personal técnico

Interfaz de configuración

Visualización por listas

• Con opción de búsqueda

• Permite eliminar, duplicar y editar

• Menú contextual y otra información relevante

Vista de edición

• Las pantallas de edición también se usan para crear nuevos objetos y objetos duplicados

• Usa pestañas para reducir la complejidad de las pantallas

• Ayuda contextual para la mayoría de los campos

• Estos son todos los hosts configurados en Opsview • Lo primero, rellenar la información acerca del

host. • Después, seleccionar alguna plantilla, y todos los

checks adicionales que se requieran. • Se pueden consultar de forma automatizada las

interfaces del host vía SNMP (extremadamente útil para dispositivos de networking)

• Atributos de Host – nueva funcionalidad para guardar metadatos (discos, interfaces de red, particiones, …)

Service checks

• Todos los servicios que se quieran comprobar deberán tener un service check

• Agrupados para encontrarlos de forma fácil

• Dependencias:

– Sólo son posibles dependencias en un mismo host

– Caso de uso inicial: fallo del agente de monitorización

• Reportar cada fallo: sirve para checks pasivos

Otros tipos de service check

• SNMP Polling – Un tipo de check activo basado en variables SNMP específicas

• Check pasivo – un servicio vacio

• SNMP Traps - un sistema basado en reglas de alertas en caso de traps

Plantillas de hosts (templates)

• Cada plantilla del host tiene una lista de service checks asociados

• A un mismo host se le pueden aplicar múltiples plantillas

• El orden en que se añaden es importante!! • Primero los monitores

específicos del host • Luego, según el orden de las

plantillas del host • En el menú contextual de cada host

se pueden consultar los service checks que se le están aplicando

Excepciones

• Se pueden cambiar los parámetros indicados en el plugin

– Ejemplo de uso: Load average, cuando algunos hosts tienen más carga

• Se puede cambiar el periodo de tiempo durante el cual desea que cambien los parámetros

– Ejemplo de uso: Mientras corren los backups, un servidor tendrá un aumento de carga temporal

Host groups y service groups

• Clave para el control de acceso

• Cada service check pertenece únicamente a un único grupo

• Cada host pertenece únicamente a un host group

• Los host groups tienen jerarquía

• Se pueden hacer modificaciones en dicha jerarquía mediante “drag & drop”

• Los host groups tienen algunas restricciones

Keywords – palabras claves • Una palabra clave es una

selección de servicios

• Se puede editar la lista de hosts y servicios a partir de la página de keyword

• Se puede habilitar una ventana de visualización y elegir su estilo

Contactos

• Un contacto es un usuario de Opsview

• Puede tener diferentes esquemas de autenticación. Actualmente sólo soporta LDAP y autenticación interna

• Autorización basada en roles

• Cada usuario tiene un perfil de notificación para determinar qué alertas recibe

Niveles de acceso • VIEWALL, VIEWSOME - capacidad para ver

estados

• NOTIFYSOME – capacidad para recibir alertas

• ACTIONALL, ACTIONSOME – capacidad para realizar reconocimientos, etc

• DOWNTIMEALL, DOWNTIMESOME – capacidad para definir downtimes

• CONFIGUREHOSTS, CONFIGUREKEYWORD, CONFIGUREVIEW – Capacidad para visualizar configuraciones

• CONFIGURESAVE – guardar configuración

• RELOAD – capacidad para recargar Opsview

• VIEWPORTACCESS – capacidad para visualizar viewport

• RRDGRAPHS – capacidad para ver gráficos

• ADMINACCESS - todo! 62

Roles por defecto

Role View Notification Action Admin

Admin Todos Algunos Todos Sí

View all, change

Todos Algunos Algunos No

View some, change

Algunos Algunos Algunos No

View all, change

Todos Algunos Ninguno No

View some, change

Algunos Algunos Ninguno No

Que significa “algunos”? Parte 1

• Lista de palabras claves

• La intersección de host groups y service groups

Que significa “algunos”? Parte 1

Que significa “algunos”? Parte 2 • La lista total de servicios es la unión de la

intersección host group y grupo de servicio más la lista de servicios para las palabras clave.

• Todos los hosts adecuados son añadidos también

• Las duplicaciones no representan problema alguno

• La intersección host group y grupo de servicio es interesante para equipos

• La selección de las palabras claves son interesantes para administradores o usuarios finales

• A partir de Opsview 3.11.0: Los objetos de tipo acceso se definen al nivel de rol

Servidores de monitorización

• Lista todos los servidores de monitorización en el sistema Opsview

• El enlace al estado del esclavo muestra el estado de los esclavos, basándose en checks generados automáticamente

• Permite arrastrar y soltar host entre los servidores de monitorización

Host check command

• Define el check que el host usa para determinar si está caído

• Generalmente usa un ping, pero se puede comprobar cualquier otra cosa

• También son plugins

Métodos de notificación

• Se pueden definir diferentes métodos: Email, SMS, …

• Puede definir si la notificación será invocada por el master o por el esclavo que la inicia

• Sorpresa!! También son plugins.

Punto de control

• Cuántos tipos de plugins utiliza Nagios y para qué se utilizan?

• Puede haber contactos de sólo lectura?

• Un hostgroup puede contener otros hostgroups?

Agentes

Por qué agentes?

• Para monitorizar recursos locales sobre máquinas remotas

– Ej: CPU, uso de disco, …

• La información no se hace pública

• Se requiere un agente para recuperar esa información

• Opsview usa 3 tecnologías de agentes:

– SNMP

– SSH

– NRPE

Agentes

• SNMP : Simple Network Management Protocol

• Más en el curso OV203.....

check_by_ssh • check_by_ssh ejecuta plugins en

remoto

• Necesita acceder vía SSH entre el servidor que monitoriza y el host remoto

• Provee de autenticación y encriptación

• Menos administración, pero más acceso libre desde Opsview

NRPE: Nagios Remote Plugin Executor • NRPE se ejecuta en máquinas

monitorizadas

• Escucha a través del puerto 5666

• El servidor Opsview ejecuta check_nrpe para conectar

• La máquina ejecuta el plugin localmente y devuelve el resultado

• No hay autenticación, pero el tráfico está cifrado

• Se puede filtrar a nivel IP

• Suele ser necesario abrir firewalls

• No requiere acceso a la shell

Monitorización de servidores Unix/Linux

Cómo usar NRPE en UNIX • Instale el agente NRPE

– Ya empaquetado para muchas distribuciones de Linux/UNIX

• /usr/local/nagios/etc/nrpe.cfg lista qué plugins pueden ser ejecutados – command[check_disk]=/usr/local/nag

ios/libexec/check_disk $ARG1$

• Para consultar un host por NRPE se debe utilizar el plugin check_nrpe desde Opsview

Monitorización de Servidores Windows

Monitoring Windows Servers • Agente Opsview para Windows

• Basado en NSclient

• Compatible con NRPE

• Contiene funciones integradas además de la capacidad para ejecutar cualquier programa

Resumen

• Entender conceptos de monitorización

• Entender la arquitectura Opsview

• Realizar tareas comunes de configuración y administración

Evaluación del curso

• www.surveymonkey.com/s/ov201

ov201-v2 opsview intro

Documents

intro to running_online_events v2

intro to agile marketing v2

chapter 1 intro to mot v2

intro semester 2 jan 2015 v2

kv712 intro to research methodology v2

210x210 harnel intro pack v2

monitoring windows services with opsview

manual opsview community

exposición smnp opsview

chapter 1 intro v2 050121 - storage.googleapis.com

intro to the web v2

worklight technical intro v2

pres group2012 intro-v2

6lowapp intro v2

babel presenta: opsview

hfm intro v2

vanap intro primer 021617 v2

intro wg dimension v2-0-1

data mining intro-2009-v2

01 intro v2 annotated