Shell脚本实现Linux系统和进程资源监控_基础知识-js教程-PHP中文网

首页

web前端

js教程

Shell脚本实现Linux系统和进程资源监控_基础知识

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 16, 2016 pm 04:10 PM

shell 监控系统

在服务器运维过程中，经常需要对服务器的各种资源进行监控，例如：CPU的负载监控，磁盘的使用率监控，进程数目监控等等，以在系统出现异常时及时报警，通知系统管理员。本文介绍在Linux系统下几种常见的监控需求及其shell脚本的编写。

文章目录：

1.Linux使用 Shell 检查进程是否存在
2.Linux使用 Shell检测进程 CPU 利用率
3.Linux使用 Shell检测进程内存使用量
4.Linux使用 Shell检测进程句柄使用量
5.Linux使用 Shell查看某个 TCP 或 UDP 端口是否在监听
6.Linux使用 Shell查看某个进程名正在运行的个数
7.Linux使用 Shell检测系统 CPU 负载
8.Linux使用 Shell检测系统磁盘空间
9.总结

检查进程是否存在

在对进程进行监控时，我们一般需要得到该进程的 ID，进程 ID 是进程的唯一标识，但是有时可能在服务器上不同用户下运行着多个相同进程名的进程，下面的函数 GetPID 给出了获取指定用户下指定进程名的进程 ID 功能（目前只考虑这个用户下启动一个此进程名的进程），它有两个参数为用户名和进程名，它首先使用 ps 查找进程信息，同时通过 grep 过滤出需要的进程，最后通过 sed 和 awk 查找需要进程的 ID 值（此函数可根据实际情况修改，比如需要过滤其它信息等）。

清单 1. 对进程进行监控

复制代码代码如下:

 function GetPID #User #Name 

 { 

    PsUser=$1 

    PsName=$2 

    pid=`ps -u $PsUser|grep $PsName|grep -v grep|grep -v vi|grep -v dbx\n 

    |grep -v tail|grep -v start|grep -v stop |sed -n 1p |awk '{print $1}'` 

    echo $pid 

 }

示例演示：

1）源程序（例如查找用户为 root，进程名为 CFTestApp 的进程 ID）

复制代码代码如下:

    PID=`GetPID root CFTestApp` 

    echo $PID

2）结果输出

复制代码代码如下:

    11426 

    [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：11426 为 root 用户下的 CFTestApp 程序的进程 ID。

4）命令介绍

1. ps: 查看系统中瞬间进程信息。参数：-u 列出属于该用户的程序的状况，也可使用用户名称来指定。 -p 指定进程识别码，并列出该进程的状况。 -o 指定输出格式 2. grep: 用于查找文件中符合字符串的当前行。参数：-v 反向选择，亦即显示出没有 ‘搜寻字符串' 内容的那一行。 3. sed: 一个非交互性文本编辑器，它编辑文件或标准输入导出的文件，一次只能处理一行内容。参数：-n 读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。 p 标志打印匹配行 4. awk：一种编程语言，用于在 linux/unix 下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是 linux/unix 下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk 的处理文本和数据的方式：它逐行扫描文件，从第一行到最后一行，寻找匹配的特定模式的行，并在这些行上进行你想要的操作。如果没有指定处理动作，则把匹配的行显示到标准输出 ( 屏幕 )，如果没有指定模式，则所有被操作所指定的行都被处理。参数：-F fs or –field-separator fs ：指定输入文件折分隔符，fs 是一个字符串或者是一个正则表达式，如 -F:。
有时有可能进程没有启动，下面的功能是检查进程 ID 是否存在，如果此进程没有运行输出：

复制代码代码如下:

    The process does not exist. 

    # 检查进程是否存在

    if [ "-$PID" == "-" ] 

    then 

    { 

        echo "The process does not exist."

    } 

    fi

检测进程 CPU 利用率

在对应用服务进行维护时，我们经常遇到由于 CPU 过高导致业务阻塞，造成业务中断的情况。CPU 过高可能由于业务量过负荷或者出现死循环等异常情况，通过脚本对业务进程 CPU 进行时时监控，可以在 CPU 利用率异常时及时通知维护人员，便于维护人员及时分析，定位，以及避免业务中断等。下面的函数可获得指定进程 ID 的进程 CPU 利用率。它有一个参数为进程 ID，它首先使用 ps 查找进程信息，同时通过 grep -v 过滤掉 %CPU 行，最后通过 awk 查找 CPU 利用百分比的整数部分（如果系统中有多个 CPU，CPU 利用率可以超过 100%）。

清单 2. 对业务进程 CPU 进行实时监控

复制代码代码如下:

function GetCpu 

  { 

   CpuValue=`ps -p $1 -o pcpu |grep -v CPU | awk '{print $1}' | awk -  F. '{print $1}'` 

        echo $CpuValue 

    }

下面的功能是通过上面的函数 GetCpu 获得此进程的 CPU 利用率，然后通过条件语句判断 CPU 利用率是否超过限制，如果超过 80%（可以根据实际情况进行调整），则输出告警，否则输出正常信息。

清单 3. 判断 CPU 利用率是否超过限制

复制代码代码如下:

 function CheckCpu 

 { 

    PID=$1 

    cpu=`GetCpu $PID` 

    if [ $cpu -gt 80 ] 

    then 

    { 

 echo “The usage of cpu is larger than 80%”

    } 

    else 

    { 

 echo “The usage of cpu is normal”

    } 

    fi 

 }

示例演示：

1）源程序（假设上面已经查询出 CFTestApp 的进程 ID 为 11426）

复制代码代码如下:

CheckCpu 11426

2）结果输出

复制代码代码如下:

    The usage of cpu is 75 

    The usage of cpu is normal 

    [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：CFTestApp 程序当前的 CPU 使用为 75%，是正常的，没有超过 80% 的告警限制。

检测进程内存使用量

在对应用服务进行维护时，也经常遇到由于内存使用过大导致进程崩溃，造成业务中断的情况（例如 32 位程序可寻址的最大内存空间为 4G，如果超出将申请内存失败，同时物理内存也是有限的）。内存使用过高可能由于内存泄露，消息堆积等情况，通过脚本对业务进程内存使用量进行时时监控，可以在内存使用量异常时及时发送告警（例如通过短信），便于维护人员及时处理。下面的函数可获得指定进程 ID 的进程内存使用情况。它有一个参数为进程 ID，它首先使用 ps 查找进程信息，同时通过 grep -v 过滤掉 VSZ 行 , 然后通过除 1000 取以兆为单位的内存使用量。

清单 4. 对业务进程内存使用量进行监控

复制代码代码如下:

    function GetMem 

    { 

        MEMUsage=`ps -o vsz -p $1|grep -v VSZ` 

        (( MEMUsage /= 1000)) 

        echo $MEMUsage 

    }

下面的功能是通过上面的函数 GetMem获得此进程的内存使用，然后通过条件语句判断内存使用是否超过限制，如果超过 1.6G（可以根据实际情况进行调整），则输出告警，否则输出正常信息。

清单 5. 判断内存使用是否超过限制

复制代码代码如下:

mem=`GetMem $PID`                

 if [ $mem -gt 1600 ] 

 then 

 { 

     echo “The usage of memory is larger than 1.6G”

 } 

 else 

 { 

    echo “The usage of memory is normal”

 } 

 fi

示例演示：

1）源程序（假设上面已经查询出 CFTestApp 的进程 ID 为 11426）

复制代码代码如下:

mem=`GetMem 11426` 

    echo "The usage of memory is $mem M"

    if [ $mem -gt 1600 ] 

    then 

    { 

         echo "The usage of memory is larger than 1.6G"

    } 

    else 

    { 

        echo "The usage of memory is normal"

    } 

    fi

2）结果输出

复制代码代码如下:

    The usage of memory is 248 M 

    The usage of memory is normal 

    [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：CFTestApp 程序当前的内存使用为 248M，是正常的，没有超过 1.6G 的告警限制。

检测进程句柄使用量

在对应用服务进行维护时，也经常遇到由于句柄使用过量导致业务中断的情况。每个平台对进程的句柄使用都是有限的，例如在 Linux 平台，我们可以使用 ulimit – n 命令（open files (-n) 1024）或者对 /etc/security/limits.conf 的内容进行查看，得到进程句柄限制。句柄使用过高可能由于负载过高，句柄泄露等情况，通过脚本对业务进程句柄使用量进行时时监控，可以在异常时及时发送告警（例如通过短信），便于维护人员及时处理。下面的函数可获得指定进程 ID 的进程句柄使用情况。它有一个参数为进程 ID，它首先使用 ls 输出进程句柄信息，然后通过 wc -l 统计输出句柄个数。

复制代码代码如下:

    function GetDes 

    { 

        DES=`ls /proc/$1/fd | wc -l` 

        echo $DES 

    }

下面功能是通过上面的函数 GetDes获得此进程的句柄使用量，然后通过条件语句判断句柄使用是否超过限制，如果超过 900（可以根据实际情况进行调整）个，则输出告警，否则输出正常信息。

复制代码代码如下:

 des=` GetDes $PID` 

 if [ $des -gt 900 ] 

 then 

 { 

     echo “The number of des is larger than 900”

 } 

 else 

 { 

    echo “The number of des is normal”

 } 

 fi

示例演示：

1）源程序（假设上面查询出 CFTestApp 的进程 ID 为 11426）

复制代码代码如下:

des=`GetDes 11426` 

    echo "The number of des is $des"

    if [ $des -gt 900 ] 

    then 

    { 

         echo "The number of des is larger than 900"

    } 

    else 

    { 

        echo "The number of des is normal"

    } 

    fi

2）结果输出

复制代码代码如下:

    The number of des is 528 

    The number of des is normal 

    [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：CFTestApp 程序当前的句柄使用为 528 个，是正常的，没有超过 900 个的告警限制。

4）命令介绍

wc: 统计指定文件中的字节数、字数、行数 , 并将统计结果显示输出。参数：-l 统计行数。 -c 统计字节数。 -w 统计字数。

查看某个 TCP 或 UDP 端口是否在监听

端口检测是系统资源检测经常遇到的，特别是在网络通讯情况下，端口状态的检测往往是很重要的。有时可能进程，CPU，内存等处于正常状态，但是端口处于异常状态，业务也是没有正常运行。下面函数可判断指定端口是否在监听。它有一个参数为待检测端口，它首先使用 netstat 输出端口占用信息，然后通过 grep, awk,wc 过滤输出监听 TCP 端口的个数，第二条语句为输出 UDP 端口的监听个数，如果 TCP 与 UDP 端口监听都为 0，返回 0，否则返回 1.

清单 6. 端口检测

复制代码代码如下:

 function Listening 

 { 

    TCPListeningnum=`netstat -an | grep ":$1 " | \n

    awk '$1 == "tcp" && $NF == "LISTEN" {print $0}' | wc -l` 

    UDPListeningnum=`netstat -an|grep ":$1 " \n

    |awk '$1 == "udp" && $NF == "0.0.0.0:*" {print $0}' | wc -l` 

    (( Listeningnum = TCPListeningnum + UDPListeningnum )) 

    if [ $Listeningnum == 0 ] 

    then 

    { 

        echo "0"

    } 

    else 

    { 

       echo "1"

    } 

    fi 

 }

示例演示：

1）源程序（例如查询 8080 端口的状态是否在监听）

复制代码代码如下:

    isListen=`Listening 8080` 

    if [ $isListen -eq 1 ] 

    then 

    { 

        echo "The port is listening"

    } 

    else 

    { 

        echo "The port is not listening"

    } 

    fi

2）结果输出

复制代码代码如下:

    The port is listening 

    [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：这个 Linux 服务器的 8080 端口处在监听状态。

4）命令介绍

netstat: 用于显示与 IP、TCP、UDP 和 ICMP 协议相关的统计数据，一般用于检验本机各端口的网络连接情况。参数：-a 显示所有连线中的 Socket。 -n 直接使用 IP 地址，而不通过域名服务器。
下面的功能也是检测某个 TCP 或者 UDP 端口是否处在正常状态。

复制代码代码如下:

 tcp: netstat -an|egrep $1 |awk '$6 == "LISTEN" && $1 == "tcp" {print $0}'

 udp: netstat -an|egrep $1 |awk '$1 == "udp" && $5 == "0.0.0.0:*" {print $0}'

命令介绍

egrep: 在文件内查找指定的字符串。egrep 执行效果如 grep -E，使用的语法及参数可参照 grep 指令，与 grep 不同点在于解读字符串的方法，egrep 是用扩展的正则表达式语法来解读，而 grep 则用基本的正则表达式语法，扩展的正则表达式比基本的正则表达式有更完整的表达规范。

查看某个进程名正在运行的个数

有时我们可能需要得到服务器上某个进程的启动个数，下面的功能是检测某个进程正在运行的个数，例如进程名为 CFTestApp。

复制代码代码如下:

 Runnum=`ps -ef | grep -v vi | grep -v tail | grep "[ /]CFTestApp" | grep -v grep | wc -l

 

检测系统 CPU 负载

在对服务器进行维护时，有时也遇到由于系统 CPU（利用率）负载过量导致业务中断的情况。服务器上可能运行多个进程，查看单个进程的 CPU 都是正常的，但是整个系统的 CPU 负载可能是异常的。通过脚本对系统 CPU 负载进行时时监控，可以在异常时及时发送告警，便于维护人员及时处理，预防事故发生。下面的函数可以检测系统 CPU 使用情况 . 使用 vmstat 取 5 次系统 CPU 的 idle 值，取平均值，然后通过与 100 取差得到当前 CPU 的实际占用值。

复制代码代码如下:

 function GetSysCPU 

 { 

   CpuIdle=`vmstat 1 5 |sed -n '3,$p' \n

   |awk '{x = x + $15} END {print x/5}' |awk -F. '{print $1}'

   CpuNum=`echo "100-$CpuIdle" | bc` 

   echo $CpuNum 

 }

示例演示：

1）源程序

复制代码代码如下:

 cpu=`GetSysCPU` 

 echo "The system CPU is $cpu"

 if [ $cpu -gt 90 ] 

 then 

 { 

    echo "The usage of system cpu is larger than 90%"

 } 

 else 

 { 

    echo "The usage of system cpu is normal"

 } 

 fi

2）结果输出

复制代码代码如下:

 The system CPU is 87 

 The usage of system cpu is normal 

 [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：当前 Linux 服务器系统 CPU 利用率为 87%，是正常的，没有超过 90% 的告警限制。

4）命令介绍

vmstat：Virtual Meomory Statistics（虚拟内存统计）的缩写，可对操作系统的虚拟内存、进程、CPU 活动进行监视。
参数： -n 表示在周期性循环输出时，输出的头部信息仅显示一次。

检测系统磁盘空间

系统磁盘空间检测是系统资源检测的重要部分，在系统维护维护中，我们经常需要查看服务器磁盘空间使用情况。因为有些业务要时时写话单，日志，或者临时文件等，如果磁盘空间用尽，也可能会导致业务中断，下面的函数可以检测当前系统磁盘空间中某个目录的磁盘空间使用情况 . 输入参数为需要检测的目录名，使用 df 输出系统磁盘空间使用信息，然后通过 grep 和 awk 过滤得到某个目录的磁盘空间使用百分比。

复制代码代码如下:

 function GetDiskSpc 

 { 

    if [ $# -ne 1 ] 

    then 

        return 1 

    fi 

    Folder="$1$"

    DiskSpace=`df -k |grep $Folder |awk '{print $5}' |awk -F% '{print $1}'

    echo $DiskSpace 

 }

示例演示：

1）源程序（检测目录为 /boot）

复制代码代码如下:

 Folder="/boot"

 DiskSpace=`GetDiskSpc $Folder` 

 echo "The system $Folder disk space is $DiskSpace%"

 if [ $DiskSpace -gt 90 ] 

 then 

 { 

    echo "The usage of system disk($Folder) is larger than 90%"

 } 

 else 

 { 

    echo "The usage of system disk($Folder)  is normal"

 } 

 fi

2）结果输出

复制代码代码如下:

 The system /boot disk space is 14% 

 The usage of system disk(/boot)  is normal 

 [dyu@xilinuxbldsrv shell]$

3）结果分析

从上面的输出可见：当前此 Linux 服务器系统上 /boot 目录的磁盘空间已经使用了 14%，是正常的，没有超过使用 90% 的告警限制。

4）命令介绍

df：检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少空间，目前还剩下多少空间等信息。参数：-k 以 k 字节为单位显示。

总结

在 Linux 平台下，shell 脚本监控是一个非常简单，方便，有效的对服务器，进程进行监控的方法，对系统开发以及进程维护人员非常有帮助。它不仅可以对上面的信息进行监控，发送告警，同时也可以监控进程的日志等等的信息，希望本文对大家有帮助。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7338

Java教程

1627

CakePHP 教程

1352

Laravel 教程

1265

PHP教程

1210

显示更多

Related knowledge

如何在 Windows 11 上安装经典 Shell？ Apr 21, 2023 pm 09:13 PM

定制您的操作系统是让您的日常生活更加愉快的绝佳方式。您可以更改用户界面、应用自定义主题、添加小部件等等。因此，我们今天将向您展示如何在Windows11上安装ClassicShell。该程序已经存在了很长时间，并允许您修改操作系统。志愿者现在已经开始运营该组织，该组织于2017年解散。新项目名为OpenShell，目前在Github上可供感兴趣的人使用。&a

Explorer.exe 在系统启动时不启动 [修复] Jun 03, 2023 am 08:31 AM

如今，许多Windows用户开始遇到严重的Windows系统问题。问题是系统加载后Explorer.exe无法启动，用户无法打开文件或文件夹。虽然，Windows用户在某些情况下可以使用命令提示符手动打开Windows资源管理器，并且每次系统重新启动或系统启动后都必须这样做。这可能是有问题的，并且是由于下面提到的以下因素造成的。损坏的系统文件。启用快速启动设置。过时或有问题的显示驱动程序。对系统中的某些服务进行了更改。修改后的注册表文件。请记住以上所有因素，我们提出了一些肯定会对用户有所帮助

PowerShell 部署失败并出现 HRESULT 0x80073D02 问题修复 May 10, 2023 am 11:02 AM

您在运行脚本时是否看到此错误消息“Add-AppxPackage：部署失败，HRESULT：0x80073D02，无法安装该包，因为它修改的资源当前正在使用中。PowerShell中出现错误0x80073D02…”？如错误消息所述，当用户在前一个进程运行时尝试重新注册一个或所有WindowsShellExperienceHost应用程序时，确实会发生这种情况。我们已经获得了一些简单的解决方案来快速解决这个问题。修复1–终止体验主机进程您必须在执行powershell命令之前结束

Linux快速删除文件末尾行的操作步骤 Mar 01, 2024 pm 09:36 PM

Linux系统下在处理文件时，有时候需要删除文件末尾的行。这种操作在实际应用中很常见，可以通过一些简单的命令来实现。本文将介绍在Linux系统中快速删除文件末尾行的操作步骤，同时提供具体的代码示例。步骤一：查看文件末尾行在进行删除操作之前，首先需要确认文件的末尾行是哪一行。可以使用tail命令来查看文件的末尾行，具体命令如下：tail-n1filena

在 Windows 上运行 shell 脚本文件的不同方法 Apr 13, 2023 am 11:58 AM

适用于 Linux 的 Windows 子系统第一种选择是使用适用于 Linux 或 WSL 的 Windows 子系统，这是一个兼容层，用于在 Windows 系统上本地运行 Linux 二进制可执行文件。它适用于大多数场景，允许您在 Windows 11/10 中运行 shell 脚本。WSL 不会自动可用，因此您必须通过 Windows 设备的开发人员设置启用它。您可以通过转到设置 > 更新和安全 > 对于开发人员来完成。切换到开发人员模式并通过选择是确认提示。接下来，查找 W

超硬核！11个非常实用的 Python 和 Shell 拿来就用脚本实例！ Apr 12, 2023 pm 01:52 PM

Python 脚本部分实例：企业微信告警、FTP 客户端、SSH 客户端、Saltstack 客户端、vCenter 客户端、获取域名 ssl 证书过期时间、发送今天的天气预报以及未来的天气趋势图；Shell 脚本部分实例：SVN 完整备份、Zabbix 监控用户密码过期、构建本地 YUM 以及上篇文章中有读者的需求（负载高时，查出占用比较高的进程脚本并存储或推送通知）；篇幅有些长，还请大家耐心翻到文末，毕竟有彩蛋。Python 脚本部分企业微信告警此脚本通过企业微信应用，进行微信告警，可用于

以下是 Open Shell Windows 11 无法正常工作问题的修复 Apr 14, 2023 pm 02:07 PM

无法在Windows 11上运行的 Open shell 并不是一个新问题，并且自从这个新操作系统问世以来一直困扰着用户。Open-Shell Windows 11 不工作问题的原因并不具体。它可能是由程序中的意外错误、病毒或恶意软件的存在或损坏的系统文件引起的。对于那些不知道的人，Open-Shell 是 2017 年停产的 Classic Shell 的替代品。您可以查看我们的教程，了解如何在 Windows 11 上安装 Classic Shell。如何替换 Windows 11 的开始菜