Table des matières

Ce qu'il faut savoir sur Nagios

L'arborescence

L’installation de nagios via les sources installe votre contenu dans /usr/local/nagios par défaut. Ce répertoire est constitué de sous répertoire qui ont chacun un rôle :

La configuration de Nagios

Le coeur de Nagios gère sa configuration d’une manière bien particulière. Et lorsque l’on est débutant, ça peut être ardu à comprendre. Nous allons résumer de manière très simpliste les liens entre les éléments de configurations dans un schéma.

Fonctionnement des notifications

  1. A l’instant T, la machine ou le service supervisé passe de l’état OK –> Critical. Nagios va passer la machine / service est état SOFT –> Début du déclenchement du cycle de vérification de la fiabilité de l’incident (max_check_attemps)
  2. Ensuite, la première vérification a lieu à l’instant T+1 qui peut être définit grâce à la variable retry_interval
  3. Une fois arrivée à la fin du cycle de vérification, Nagios va passer la machine / service en état HARD. C’est à dire que l’incident est certifié et que le cycle de notification va commencer.
  4. La 4eme étape est optionnelle mais plus que recommandée dans la vision ITIL et dans la logique du fonctionnement de la Supervision. L’action d’acquittement va permettre de stopper l’envoi des notifications et marqué votre intervention sur la supervision pour le traitement du problème. Ceci informe le reste des équipes que vous ayez bien pris le problème en compte.
  5. Le problème est résolu, Nagios envoi une dernière notification (réglage par défaut) pour signaler que tout est rentré dans l’ordre

Fonctionnement des escalades

Ceci est un exemple d’escalade parmi tant d’autres. Le schéma ci-dessous est là pour vous expliquer de manière simple le principe d’escalades de notifications.

  1. La première notification est envoyée à l’équipe de Niveau 1 (support, hotline, exploitation,…)
  2. La deuxième et troisième notification sont envoyées toujours au niveau 1 mais aussi au niveau 2 (responsable, administrateurs …) pour l’alerter qu’aucune action n’a été réalisé pour traiter l’incident pour X raisons
  3. La quatrième notification est envoyé au Niveau 3 (astreinte, responsable, DSI …) pour qu’une action soit mené au plus tôt sur cet incident.
  4. Les équipes ont 2 choix qui se présentent à eux : soit acquitter le problème pour stopper l’envoi des notifications, car on ne sait pas combien de temps l’incident va encore durer, ou bien, résoudre l’incident dans les plus brefs délais.

Acquitter un incident