Überwachung ist die Methode, Alarmierung ist das Mittel und Lösung ist das Ziel.
Aber sind Sie jemals auf diese Art von Verwirrung gestoßen? Ich habe viele Indikatoren gesammelt, weiß aber nicht, welche Indikatoren Alarme auslösen sollen, wie ich diese Alarme an die entsprechenden Teams oder Einzelpersonen senden soll oder wie ich die Alarme aktualisieren soll.
Als ich zuvor Prometheus+Altermanager verwendet habe, habe ich für jedes Team eine DingTalk-Gruppe erstellt und dann eine Reihe von Tags hinzugefügt, verschiedene Tags abgeglichen und sie an verschiedene Gruppen gesendet. Wenn ich Alarme aktualisieren möchte, wird es viele geben Zeitprobleme werden durch eine Schwellenwertaktualisierung behoben, es ist jedoch schwierig, denselben Alarm durch eine Zeitaktualisierung zu behandeln.
Aber die Alarmregelverwaltung von Nightingale ist nicht so kompliziert (sie erledigen die komplizierten Dinge für Sie), und sie ist auch sehr elegant. Ich habe Nightingale zum ersten Mal in „[Nightingale Monitoring]“ getroffen und sie ist immer noch stark! 》Erwähnt: Grafana ist besser in der Überwachung der Panel-Verwaltung und N9e ist besser in der Verwaltung von Alarmregeln.
Werfen wir heute einen Blick darauf, wie Nightingale spielt.Haben Sie, nachdem Sie dies gesehen haben, ein gewisses Verständnis für die Verwaltung gewöhnlicher Alarmregeln?
Zusätzlich zum Klonen der integrierten Alarmregeln können wir Alarmregeln auch anpassen, die Gesamtkonfiguration ist jedoch dieselbe wie oben.
Im Allgemeinen sind blockierte Alarme keine sehr wichtigen Alarme.
Unter welchen Umständen wird der Alarm blockiert?
Wenn wir beispielsweise eine Anwendung veröffentlichen, werden wir unweigerlich auf Probleme stoßen. Zu diesem Zeitpunkt können wir im Voraus einige Blockierungsregeln festlegen, um die Generierung von Alarmmeldungen zu vermeiden.
Abschirmungsregeln sind auch nach Geschäftskomponenten unterteilt. Wir können wie folgt eine neue Regel hinzufügen, um eine Regel zum Blockieren von Message Center-Alarmen zu erstellen.
Auf diese Weise werden innerhalb eines festgelegten Zeitfensters die Alarminformationen nicht mehr gesendet.
Einige Schüler fragen sich vielleicht: Ist es etwas mühsam, sie einzeln auf diese Weise hinzuzufügen?
Wenn es sich um einen aktiven Alarm handelt, der generiert wurde, kann dieser mit einem Klick blockiert werden.
Wenn es sich um einen historischen Alarm handelt, kann dieser auch mit einem Klick blockiert werden.
Was noch?
Wenn Sie etwas blockieren möchten, fügen Sie es einfach selbst hinzu!
Was soll ich tun, wenn ein Alarm nicht innerhalb eines bestimmten Zeitraums bearbeitet wurde?
Entweder ist es keine wichtige Warnung – löschen Sie die Regel und lassen Sie sie unbrauchbar.
Oder es handelt sich um einen Alarm, der nicht gelöst werden kann – aktualisieren Sie ihn und informieren Sie mehr Menschen darüber.
In Nightingale können Alarm-Upgrades in Abonnementregeln implementiert werden.
Unsere Konfiguration sieht beispielsweise wie folgt aus:
Wenn das Alarmereignis von server=notice nicht innerhalb einer Stunde behoben wird, erhöhen wir die Alarmstufe auf Stufe eins und senden die Alarminformationen an eine höhere Ebene Gruppe.
Die Regeln hier können auch von Business-Teams klassifiziert und verwaltet werden.
Darüber hinaus werden auch aktive Alarme und historische Alarme angezeigt. Sie können die aktuellen Alarminformationen und historischen Alarmaufzeichnungen überprüfen.
Je länger Sie in Betrieb und Wartung arbeiten, desto mehr werden Sie feststellen, dass sich die Verarbeitung vieler Dinge wiederholt. Einige einfache und sich wiederholende Aufgaben können durch automatisierte Skripte verarbeitet werden, was nicht nur die Arbeit verbessern kann Effizienz, aber auch die Effizienz des Betriebs auf einem bestimmten Niveau verbessern. Reduzieren Sie das Risiko menschlicher Bedienung bis zu einem gewissen Grad.
Nightingale bietet eine Alarm-Selbstheilungsfunktion. Auch wenn die Funktion gut ist, seien Sie nicht gierig.
Wenn es um einen Alarm geht, müssen Sie zunächst den wahren Grund dafür herausfinden, damit Sie das Problem lösen können. Für die Selbstheilung des Alarms müssen Sie also verstehen, dass das Risiko des von Ihnen durchgeführten automatisierten Vorgangs sehr gering ist und Sie ihn viele Male versucht haben. Verwenden Sie nicht den Vorgang cd /opt/aaa;rm -rf ./.
Verwenden Sie in Nightingale die Ibex-Vorlage, um die Selbstheilung des Alarms zu implementieren. Derzeit muss die Ibex-Serverseite selbst bereitgestellt werden, und die Ibex-Agent-Seite wurde in Categraf integriert.
Gehen Sie zu https://github.com/flashcatcloud/ibex/releases, um das Binärpaket herunterzuladen. Nach dem Herunterladen befinden sich darin die folgenden Dateien:
# ll total 21536 drwxr-xr-x 3 root root 4096 Apr 19 10:44 etc -rwxr-xr-x 1 root root 16105472 Nov 152021 ibex -rw------- 1 root root5931963 Jun32022 ibex-1.0.0.tar.gz drwxr-xr-x 2 root root 4096 Nov 152021 sql
Datenbank importieren:
mysql -uroot -p <sql/ibex.sql
Ändern Sie dann die Konfigurationsdatei /etc/server.conf und ändern Sie dabei hauptsächlich die Datenbankkonfiguration.
Endlich den Server starten:
nohup ./ibex server &> server.log &
In der Systemkonfiguration->Benachrichtigungskonfiguration->Konfiguration des Alarm-Selbstheilungsmoduls entsprechende Serveradresse:
Gehen Sie dann zum Alarm-Selbstheilung->Selbstheilungsskript und fügen Sie ein Skript wie folgt hinzu:
Speichern und beenden, klicken Sie, um eine Aufgabe zu erstellen:
Wenn die Konfiguration im Inneren nicht geändert werden muss oder nachdem die entsprechende Konfiguration geändert wurde, wählen Sie die sofortige Ausführung aus:
Glauben Sie, dass es an diesem Punkt in Ordnung ist?
Jedenfalls ist mir das nicht gelungen. An dieser Stelle muss ich mich über dieses Modul beschweren:
Also, es ist mir hier nicht gelungen, das Frontend hat eine Zeitüberschreitung ausgelöst.
Keine Protokolle im Backend.
Derzeit kann Nightingale die Verwaltung von Alarmregeln, Alarmkanalverteilung, Alarmmeldungsunterdrückung und -aktualisierung relativ vollständig abschließen, und FlashDuty kann auf verschiedene Clusteralarme zugreifen, was in den meisten Unternehmen ausreichend ist.
Nur beim Test der Alarm-Selbstheilung habe ich nicht erfolgreich getestet. Es sollte mit meiner Umgebung zusammenhängen:
Das obige ist der detaillierte Inhalt von[Nightingale Monitoring] Alarmmanagement, großartig!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!