Ce qu'il faut savoir sur Nagios
L'arborescence
L’installation de nagios via les sources installe votre contenu dans /usr/local/nagios par défaut. Ce répertoire est constitué de sous répertoire qui ont chacun un rôle :
La configuration de Nagios
Le coeur de Nagios gère sa configuration d’une manière bien particulière. Et lorsque l’on est débutant, ça peut être ardu à comprendre. Nous allons résumer de manière très simpliste les liens entre les éléments de configurations dans un schéma.
Les contactgroups sont, comme leur nom l’indique, des groupes que vous allez former pour alerter plusieurs personnes (souvent des personnes avec un même rôle ex: administrateur, exploitant, direction …)
Les services sont les contrôles que vous désirez effectuer sur votre hôte (ex : Service
DNS, démon SSH tourne, la CPU, la RAM, l’IO Disk, etc …)
Les templates sont là pour faciliter la vie de l’administrateur de supervision. Il permet de raccourcir vos définitions d’hôtes et de services regroupant des variables communes lors de chaque définition. Pour être clair au lieu que votre définition pour un hôte contienne 30 lignes, grâce aux templates vous n’en aurez plus que 4 !
Fonctionnement des notifications
A l’instant T, la machine ou le service supervisé passe de l’état OK –> Critical. Nagios va passer la machine / service est état SOFT –> Début du déclenchement du cycle de vérification de la fiabilité de l’incident (max_check_attemps)
Ensuite, la première vérification a lieu à l’instant T+1 qui peut être définit grâce à la variable retry_interval
Une fois arrivée à la fin du cycle de vérification, Nagios va passer la machine / service en état HARD. C’est à dire que l’incident est certifié et que le cycle de notification va commencer.
La 4eme étape est optionnelle mais plus que recommandée dans la vision ITIL et dans la logique du fonctionnement de la Supervision. L’action d’acquittement va permettre de stopper l’envoi des notifications et marqué votre intervention sur la supervision pour le traitement du problème. Ceci informe le reste des équipes que vous ayez bien pris le problème en compte.
Le problème est résolu, Nagios envoi une dernière notification (réglage par défaut) pour signaler que tout est rentré dans l’ordre
Fonctionnement des escalades
Ceci est un exemple d’escalade parmi tant d’autres. Le schéma ci-dessous est là pour vous expliquer de manière simple le principe d’escalades de notifications.
La première notification est envoyée à l’équipe de Niveau 1 (support, hotline, exploitation,…)
La deuxième et troisième notification sont envoyées toujours au niveau 1 mais aussi au niveau 2 (responsable, administrateurs …) pour l’alerter qu’aucune action n’a été réalisé pour traiter l’incident pour X raisons
La quatrième notification est envoyé au Niveau 3 (astreinte, responsable, DSI …) pour qu’une action soit mené au plus tôt sur cet incident.
Les équipes ont 2 choix qui se présentent à eux : soit acquitter le problème pour stopper l’envoi des notifications, car on ne sait pas combien de temps l’incident va encore durer, ou bien, résoudre l’incident dans les plus brefs délais.
Acquitter un incident