Linux-Ausfallzeitprotokoll befindet sich in „/var/log/“; das Protokollprotokoll von „/var/log/“ unter Linux enthält Meldungen, Kernel-Fehlerprotokolle usw.; der SA-Datensatz zeichnet den Betrieb von CPU, Speicher usw. auf. usw. Leistungsdatei; verwenden Sie die SA-Datei, um die CPU- und Speicherbedingungen während des Absturzes anzuzeigen.
Die Betriebsumgebung dieses Tutorials: Linux5.9.8-System, Dell G3-Computer.
Wo sind die Linux-Ausfallzeitprotokolle?
Ideen zur Fehlerbehebung bei Ausfallzeiten von Linux-Hosts
Ursachenanalyse
Serverklassifizierung, Webserver, Datenbankserver, Dateiserver, Middleware, andere Server.
Webserver-Analyse: gängige Webanwendungen Apache, Nginx, IIS usw.
Es gibt viele Gründe für Ausfallzeiten, wie z. B. CPU-, Speicher-, E/A-Festplattenfehler, Anwendungsfehler, Kernelfehler, Hardware usw.
System- und Kernelversion
Prozess
1 Zeitaufzeichnung von Ausfallzeiten, historischen Anmeldungen und Neustarts Zeit
last -F |. Überprüfen Sie den Anmeldeverlauf auf ungewöhnliche Benutzer
letzter
2. Erste Überprüfung das Systemprotokoll. Beispielsweise enthält das Protokollprotokoll unter /var/log/ unter Linux Nachrichten, Kernel-Fehlerprotokolle, Demsg usw. Der SA-Datensatz ist eine Leistungsdatei, die den Betrieb von CPU, Speicher usw. aufzeichnet und den Betriebsstatus aufzeichnet CPU während des Betriebs wie in der Abbildung gezeigt.
Verwenden Sie die SA-Datei, um den CPU-Status während des Herunterfahrens zu überprüfen
Verwenden Sie die SA-Datei, um den Speicherstatus während des Herunterfahrens zu überprüfen
Das Protokollvolumen ist oft groß
Sie können auch Fuzzy-Abfragen durchführen , wie zum Beispiel
Fehlerberichte anzeigen
tail -200 /var/log/messages |grep "Error" cat /var/log/dmesg |grep "Error"
tail -200 /car/log/messages |grep "crash"
cat /var/log/messages |grep -i "kill"
cat /vat/log/messages |grep "Feb 11 15*"
4. Io- und Dateisystemnutzung anzeigen
Leerlauf und iowait beobachten. Der Cache wird beim Lesen und Schreiben auf die Festplatte verwendet, was im Allgemeinen 40 % des Systemspeichers ausmacht. In der Mitte wird jedoch eine Pufferzeit von 120 Sekunden eingehalten 120 Sekunden vor dem Schreiben auf die Festplatte. Wenn häufig gelesen und geschrieben wird, kann es manchmal leicht zum Hängenbleiben kommen.
Überprüfen Sie die E/A-Lese- und Schreibgeschwindigkeit. Wenn sie sehr langsam ist, liegt ein Engpass in der Festplattenleistung vor.
Dateisystemnutzung
5. Überprüfen Sie das Sicherheitsprotokoll.
Das Sicherheitsprotokoll lautet /var/log/secure. Überprüfen Sie den Verlaufsdatensatz, um festzustellen, ob sich jemand beim Host angemeldet und böswillige Aktionen ausgeführt hat. wie zum Beispiel Herunterfahren.
6. Verwenden Sie kdump und Crash-Tools, um den Kernel zu analysieren.
Überprüfen Sie, ob der kdump-Dienst auf dem Server aktiviert ist, und suchen Sie die an diesem Tag generierte vmcore-Datei im Verzeichnis /var/crash. Verwenden Sie das Crash-Tool, um die vmcore-Datei zu analysieren.
Kdump wird zum Speichern von Speicherabbildern verwendet. Es kann nicht nur das Speicherabbild auf die lokale Festplatte übertragen, sondern auch über NFS, SSH und andere Protokolle auf Geräte auf verschiedenen Computern übertragen.
Kdump ist in zwei Komponenten unterteilt: Kexec und Kdump. Kexec ist ein Schnellstarttool für den Kernel, das es ermöglicht, neue Kernel im Kontext eines laufenden Kernels (Produktionskernels) zu starten, ohne eine zeitaufwändige BIOS-Erkennung durchlaufen zu müssen, was es Kernelentwicklern erleichtert, den Kernel zu debuggen. Kdump ist ein effektives Speicher-Dump-Tool. Nach der Aktivierung von Kdump reserviert der Produktionskernel einen Teil des Speichers, um über Kexec schnell einen neuen Kernel zu starten. Dieser Vorgang erfordert keinen Neustart des Systems kann ein Speicherabbild des abgestürzten Produktionskernels sichern. 7. Überprüfen Sie die Serviceprotokolle und die Überwachungssoftware. Wenn Sie die Auslastung des Prozesses während der Ausfallzeit ermitteln können, können Sie die Protokolle anhand der Dienste mit abnormaler Auslastung überprüfen. Dienstprotokolle umfassen im Allgemeinen Datenbanken und Webdienste, Middleware, Frameworks usw. Sie können auch die historischen Aufzeichnungsbilder der Überwachungssoftware anzeigen und die Bildanalyse der Spitzenpunkte und Ausfallzeitpunkte finden, wie unten gezeigt.8. Zusammenfassung
Es gibt viele Gründe für Systemausfälle, die wir entsprechend dem Prozess sorgfältig analysieren müssen,
Verwandte Empfehlungen: „Linux-Video-Tutorial“
Das obige ist der detaillierte Inhalt vonWo ist das Linux-Absturzprotokoll?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!