Modifications entre les versions 4 et 19 (s'étendant sur 15 versions)

Prometheus

Prometheus est un outil de monitoring (gestion des alertes par exemple) et une base de donnée de stockage de séries de temps.

Il a été déployé sur prometheus.adm.crans.org et n'est accessible que vis Adm. On peut accéder à son interface Web en passant par un proxy Sock par exemple.

Pour plus d'information, je ne peux que vous conseillez la documentation officielle.

Fonctionnement

Prometheus représente la base de données de monitoring, mais ne récupère pas de données par lui-même. Il faut donc ajouter des services sur les autres serveurs qui vont lui envoyer les données à monitorer. De plus pour visualiser ces données, il est souhaitable de mettre en place une interface bien plus « humaine » comme Grafana, bien que l'interface de base permette déjà de voir les données.

Un de ses gros points forts est que l'on peut exporter à peu près tout ce que l'on souhaite vers Prometheus, par exemple les données collectées par le contrôleur Unifi.

Pour monitorer les informations de base d'un serveur, il suffit d'installer prometheus-node-exporter qui va exporter les informations réseaux, CPU, RAM… sans configuration nécessaire. Vous l'avez compris ça fait le café.

Faire des requêtes en PromQL

Le PromQL (Prometheus Query Language) est une syntaxe semblable au SQL (bases de données traditionnelles) pour récupérer les informations de Prometheus. Je vous invite à jouer avec l'outil "Explorer" de Grafana qui permet de prendre cette syntaxe très rapidement en main.

Mais dis donc Jamy comment ça marche ?

Prometheus est en réalité un simple collecteur de données. Il va régulièrement (toutes les 60s) charger une page web (par exemple vulcain.adm.crans.org:9100) et récupérer le contenu. C'est donc lui qui interroge les serveurs et pas l'inverse.

Du côté des serveurs à monitorer on va alors installer des services comme prometheus-node-exporter qui vont simplement répondre à cette requête HTTP en renvoyant les données à l'instant t.

Cela veut dire que Prometheus est très simple à déboguer lorsque un node est inaccessible ! Il suffit d'essayer d'y aller avec son navigateur web.

Cela veut également dire que vous pouvez très simplement créer votre service qui va répondre sur un autre port en envoyant d'autres données et que Prometheus les acceptera.

Système d'alerte

Toutes les 60s prometheus récupère les données et regarde si elles respectent des critères définis dans le fichier de règles /etc/prometheus/rules.conf.

Si quelque chose n'est pas conforme, alors Prometheus envoie une notification à Prometheus Alertmanager qui se charge ensuite d'envoyer un webhook à NinjaBot qui publie l'évènement sur le salon IRC #monitoring.

On peut également configuré l'alertmanager pour envoyer des mails regroupant les alertes, mais il s'avère que l'on préfère être informé sur IRC.

L'alertmanager envoie également une notification lorsque l'alerte est résolue, c'est-à-dire quand Prometheus a arrêté d'envoyer l'alerte à l'alertmanager.

Pour voir les alertes en court, on peut également se connecter sur Grafana et lire le tableau « Alertes actuelles ».

SNMP

Un exporteur SNMP est installé sur le serveur Prometheus et en écoute sur localhost. Il permet de discuter en SNMP avec les onduleurs, switchs et contrôleur Unifi.

Il faut générer /etc/prometheus/smnp.yml à partir d'une configuration (à venir, ou demander à WikiErdnaxe) et à partir des MIBs installés sur le serveur. (erdnaxe est en train de nettoyer cette configuration pour n'exporter que ce qui est pertinent des périphériques SMNP, puis ça finira dans un rôle Ansible)

Maintenance

Supprimer les données d'une node

Parfois après la suppression d'un serveur on veut drop les anciennes données. Pour cela sur le serveur Prometheus :

curl -X DELETE -g 'http://localhost:9090/api/v1/series?match[]={instance="ANCINNE_NODE:9100"}'

Sinon faut être patient et attendre la fin de la persistance (par défaut 25 jours ?).

Choses à tester dans le futur

Intégrer avec les stats de GitLab (de base dans GitLab) ;
Exporter NGINX (pour monitorer les reverseproxy) ;
Ajouter la position géographique des serveurs (latitude, longitude) dans le node exporter pour pouvoir tracer des weather maps sur Grafana automatiquement.

-  ⇤ ← Version 4 à la date du 2019-04-14 13:32:41 → 
  Taille: 1494
  Éditeur: WikiErdnaxe
  Commentaire: Coffeeman
+   ← Version 19 à la date du 2019-08-18 11:14:13 → ⇥
  Taille: 4818
  Éditeur: WikiErdnaxe
  Commentaire:
-Texte supprimé.
+Texte ajouté.
 Ligne 19:
+=== Faire des requêtes en PromQL ===

Le PromQL (Prometheus Query Language) est une syntaxe semblable au SQL (bases de données traditionnelles) pour récupérer les informations de Prometheus. Je vous invite à jouer avec l'outil "Explorer" de Grafana qui permet de prendre cette syntaxe très rapidement en main.

=== Mais dis donc Jamy comment ça marche ? ===

Prometheus est en réalité un simple collecteur de données. Il va régulièrement (toutes les 60s) charger une page web (par exemple vulcain.adm.crans.org:9100) et récupérer le contenu.
C'est donc lui qui interroge les serveurs et pas l'inverse.

Du côté des serveurs à monitorer on va alors installer des services comme {{{prometheus-node-exporter}}} qui vont simplement répondre à cette requête HTTP en renvoyant les données à l'instant t.

Cela veut dire que Prometheus est très simple à déboguer lorsque un node est inaccessible ! Il suffit d'essayer d'y aller avec son navigateur web.

Cela veut également dire que vous pouvez très simplement créer votre service qui va répondre sur un autre port en envoyant d'autres données et que Prometheus les acceptera.

=== Système d'alerte ===

Toutes les 60s prometheus récupère les données et regarde si elles respectent des critères définis dans le fichier de règles {{{/etc/prometheus/rules.conf}}}.

Si quelque chose n'est pas conforme, alors Prometheus envoie une notification à Prometheus Alertmanager qui se charge ensuite d'envoyer un webhook à NinjaBot qui publie l'évènement sur le salon IRC #monitoring.

On peut également configuré l'alertmanager pour envoyer des mails regroupant les alertes, mais il s'avère que l'on préfère être informé sur IRC.

L'alertmanager envoie également une notification lorsque l'alerte est résolue, c'est-à-dire quand Prometheus a arrêté d'envoyer l'alerte à l'alertmanager.

Pour voir les alertes en court, on peut également se connecter sur [[https://grafana.crans.org|Grafana]] et lire le tableau « Alertes actuelles ».

=== SNMP ===

Un exporteur SNMP est installé sur le serveur Prometheus et en écoute sur localhost. Il permet de discuter en SNMP avec les onduleurs, switchs et contrôleur Unifi.

Il faut générer {{{/etc/prometheus/smnp.yml}}} à partir d'une configuration (à venir, ou demander à WikiErdnaxe) et à partir des MIBs installés sur le serveur. (erdnaxe est en train de nettoyer cette configuration pour n'exporter que ce qui est pertinent des périphériques SMNP, puis ça finira dans un rôle Ansible)

== Maintenance ==

=== Supprimer les données d'une node ===

Parfois après la suppression d'un serveur on veut drop les anciennes données. Pour cela sur le serveur Prometheus :
{{{
curl -X DELETE -g 'http://localhost:9090/api/v1/series?match[]={instance="ANCINNE_NODE:9100"}'
}}}

Sinon faut être patient et attendre la fin de la persistance (par défaut 25 jours ?).

== Choses à tester dans le futur ==

 * Intégrer avec les stats de GitLab (de base dans GitLab) ;
 * [[https://github.com/knyar/nginx-lua-prometheus|Exporter NGINX]] (pour monitorer les reverseproxy) ;
 * Ajouter la position géographique des serveurs (latitude, longitude) dans le node exporter pour pouvoir tracer des weather maps sur Grafana automatiquement.