首頁 > 運維 > linux運維 > Linux 效能全方位調優經驗總結

Linux 效能全方位調優經驗總結

發布: 2023-08-03 14:59:49
轉載
1211 人瀏覽過

Part1Linux效能最佳化

##1 效能最佳化

效能指標

#高並發和反應快對應著效能最佳化的兩個核心指標:吞吐延時

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

  • 套用負載角度:直接影響了產品終端的使用者體驗
  • 系統資源角度:資源使用率、飽和度等

#效能問題的本質就是系統資源已經到達瓶頸,但請求的處理還不夠快,無法支撐更多的請求。效能分析其實就是找出應用或系統的瓶頸,設法避免或緩解它們。

  • 選擇指標評估應用程式和系統效能
  • #為應用程式和系統設定效能目標
  • #進行效能基準測試
  • #效能分析定位瓶頸
  • 效能監控與警告

#對於不同的效能問題要選取不同的效能分析工具。以下是常用的Linux Performance Tools以及對應分析的效能問題類型。

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

#到底該怎麼理解"平均負載"

平均負載:單位時間內,系統處於可運作狀態和不可中斷狀態的平均行程數,也就是平均活躍進程數。它和我們傳統意義上所理解的CPU使用率並沒有直接關係。

其中不可中斷程序是正處於內核態關鍵流程中的程序(如常見的等待裝置的I/O回應)。 不可中斷狀態其實是系統對進程和硬體設備的一種保護機制。

#

平均負載多少時合理

在實際生產環境中將系統的平均負載監控起來,根據歷史資料判斷負載的變化趨勢。當負載有明顯升高趨勢時,及時進行分析和調查。當然也可以當設定閾值(如當平均負載高於CPU數量的70%時)

#現實工作中我們會經常混淆平均負載和CPU使用率的概念,其實兩者並非完全對等:

  • CPU密集型進程,大量CPU使用會導致平均負載升高,此時兩者一致
  • ## I/O密集型進程,等待I/O也會導致平均負載升高,此時CPU使用率並不一定高
  • 大量等待CPU的進程調度會導致平均負載升高,此時CPU使用率也會比較高

平均負載高時可能是CPU密集型進程導致,也可能是I/O繁忙導致。具體分析時可以結合mpstat/pidstat工具輔助分析負載來源

2CPU

#CPU上下文切換(上)

CPU上下文切換,就是把前一個任務的CPU上下文(CPU暫存器和PC)保存起來,然後載入新任務的上下文到這些暫存器和程式計數器,最後再跳到程式計數器所指的位置,運行新任務。其中,保存下來的上下文會儲存在系統核心中,待任務重新調度執行時再加載,確保原來的任務狀態不受影響。

依照任務類型,CPU上下文切換分為:

  • 進程上下文切換
  • #執行緒上下文切換

##中斷上下文切換

程式上下文切換

#Linux程序依照等級權限將行程的運作空間分為核心空間和使用者空間。從使用者態轉變為核心態時需要透過系統呼叫來完成。

#########一次系統呼叫過程其實進行了兩次CPU上下文切換:#######
  • CPU暫存器中使用者狀態的指令位置先保存起來,CPU暫存器更新為核心狀態指令的位置,跳到內核態運行核心任務;
  • 系統呼叫結束後,CPU暫存器恢復原來保存的用戶態數據,再切換到用戶空間繼續運作。

系統呼叫過程中並不會涉及虛擬記憶體等行程用戶態資源,也不會切換進程。和傳統意義上的進程上下文切換不同。因此系統呼叫通常稱為特權模式切換

進程是由核心管理和調度的,進程上下文切換只能發生在核心狀態。因此相較於系統呼叫來說,在保存目前進程的核心狀態和CPU暫存器之前,需要先把該進程的虛擬內存,棧保存下來。再載入新進程的核心態後,還要刷新進程的虛擬記憶體和使用者堆疊。

進程只有在調度到CPU上運行時才需要切換上下文,有以下幾個場景:CPU時間片輪流分配,系統資源不足導致進程掛起,進程通過sleep函數主動掛起,高優先權行程搶佔時間片,硬體中斷時CPU上的行程被掛起轉而執行核心中的中斷服務。

線程上下文切換

線程上下文切換分為兩種:

  • 前後線程同屬於一個進程,切換時虛擬記憶體資源不變,只需要切換線程的私有數據,寄存器等;
  • #前後線程屬於不同進程,與進程上下文切換相同。

同行程的執行緒切換消耗資源較少,這也是多執行緒的優勢。

中斷上下文切換

中斷上下文切換並不涉及到行程的使用者狀態,因此中斷上下文只包含核心態中斷服務程式執行所必須的狀態(CPU暫存器,核心堆疊,硬體中斷參數等)。

中斷處理優先權比行程高,所以中斷上下文切換和行程上下文切換不會同時發生

Docker K8s Jenkins 主流技術全解影片資料

CPU上下文切換(下)

透過vmstat可以檢視系統整體的上下文切換情況

#
vmstat 5         #每隔5s输出一组数据
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0 103388 145412 511056    0    0    18    60    1    1  2  1 96  0  0
 0  0      0 103388 145412 511076    0    0     0     2  450 1176  1  1 99  0  0
 0  0      0 103388 145412 511076    0    0     0     8  429 1135  1  1 98  0  0
 0  0      0 103388 145412 511076    0    0     0     0  431 1132  1  1 98  0  0
 0  0      0 103388 145412 511076    0    0     0    10  467 1195  1  1 98  0  0
 1  0      0 103388 145412 511076    0    0     0     2  426 1139  1  0 99  0  0
 4  0      0  95184 145412 511108    0    0     0    74  500 1228  4  1 94  0  0
 0  0      0 103512 145416 511076    0    0     0   455  723 1573 12  3 83  2  0
登入後複製
  • cs (context switch) 每秒上下文切換次數
  • in (interrupt) 每秒中斷次數
  • r(runnning or runnable)就緒佇列的長度,正在執行和等待CPU的進程數

##################### ####b (Blocked) 處於不可中斷睡眠狀態的進程數##################要查看每個行程的詳細情況,需要使用pidstat來檢視每個進程上下文切換情況######
pidstat -w 5
14时51分16秒   UID       PID   cswch/s nvcswch/s  Command
14时51分21秒     0         1      0.80      0.00  systemd
14时51分21秒     0         6      1.40      0.00  ksoftirqd/0
14时51分21秒     0         9     32.67      0.00  rcu_sched
14时51分21秒     0        11      0.40      0.00  watchdog/0
14时51分21秒     0        32      0.20      0.00  khugepaged
14时51分21秒     0       271      0.20      0.00  jbd2/vda1-8
14时51分21秒     0      1332      0.20      0.00  argusagent
14时51分21秒     0      5265     10.02      0.00  AliSecGuard
14时51分21秒     0      7439      7.82      0.00  kworker/0:2
14时51分21秒     0      7906      0.20      0.00  pidstat
14时51分21秒     0      8346      0.20      0.00  sshd
14时51分21秒     0     20654      9.82      0.00  AliYunDun
14时51分21秒     0     25766      0.20      0.00  kworker/u2:1
14时51分21秒     0     28603      1.00      0.00  python3
登入後複製
  • cswch 每秒自愿上下文切换次数 (进程无法获取所需资源导致的上下文切换)
  • nvcswch 每秒非自愿上下文切换次数 (时间片轮流等系统强制调度)
vmstat 1 1    #首先获取空闲系统的上下文切换次数
sysbench --threads=10 --max-time=300 threads run #模拟多线程切换问题

vmstat 1 1    #新终端观察上下文切换情况
此时发现cs数据明显升高,同时观察其他指标:
r列: 远超系统CPU个数,说明存在大量CPU竞争
us和sy列:sy列占比80%,说明CPU主要被内核占用
in列: 中断次数明显上升,说明中断处理也是潜在问题
登入後複製

说明运行/等待CPU的进程过多,导致大量的上下文切换,上下文切换导致系统的CPU占用率高

pidstat -w -u 1  #查看到底哪个进程导致的问题
登入後複製

从结果中看出是sysbench导致CPU使用率过高,但是pidstat输出的上下文次数加起来也并不多。分析sysbench模拟的是线程的切换,因此需要在pidstat后加-t参数查看线程指标。

另外对于中断次数过多,我们可以通过/proc/interrupts文件读取

watch -d cat /proc/interrupts
登入後複製

发现次数变化速度最快的是重调度中断(RES),该中断用来唤醒空闲状态的CPU来调度新的任务运行。分析还是因为过多任务的调度问题,和上下文切换分析一致。

某个应用的CPU使用率达到100%,怎么办?

Linux作为多任务操作系统,将CPU时间划分为很短的时间片,通过调度器轮流分配给各个任务使用。为了维护CPU时间,Linux通过事先定义的节拍率,触发时间中断,并使用全局变了jiffies记录开机以来的节拍数。时间中断发生一次该值+1.

CPU使用率,除了空闲时间以外的其他时间占总CPU时间的百分比。可以通过/proc/stat中的数据来计算出CPU使用率。因为/proc/stat时开机以来的节拍数累加值,计算出来的是开机以来的平均CPU使用率,一般意义不大。可以间隔取一段时间的两次值作差来计算该段时间内的平均CPU使用率。性能分析工具给出的都是间隔一段时间的平均CPU使用率,要注意间隔时间的设置。

CPU使用率可以通过top 或 ps来查看。分析进程的CPU问题可以通过perf,它以性能事件采样为基础,不仅可以分析系统的各种事件和内核性能,还可以用来分析指定应用程序的性能问题。

perf top / perf record / perf report (-g 开启调用关系的采样)

sudo docker run --name nginx -p 10000:80 -itd feisky/nginx
sudo docker run --name phpfpm -itd --network container:nginx feisky/php-fpm

ab -c 10 -n 100 http://XXX.XXX.XXX.XXX:10000/ #测试Nginx服务性能
登入後複製

发现此时每秒可承受请求给长少,此时将测试的请求数从100增加到10000。在另外一个终端运行top查看每个CPU的使用率。发现系统中几个php-fpm进程导致CPU使用率骤升。

接着用perf来分析具体是php-fpm中哪个函数导致该问题。

perf top -g -p XXXX #对某一个php-fpm进程进行分析
登入後複製

发现其中sqrt和add_function占用CPU过多, 此时查看源码找到原来是sqrt中在发布前没有删除测试代码段,存在一个百万次的循环导致。将该无用代码删除后发现nginx负载能力明显提升

系统的CPU使用率很高,为什么找不到高CPU的应用?

sudo docker run --name nginx -p 10000:80 -itd feisky/nginx:sp
sudo docker run --name phpfpm -itd --network container:nginx feisky/php-fpm:sp
ab -c 100 -n 1000 http://XXX.XXX.XXX.XXX:10000/ #并发100个请求测试
登入後複製

实验结果中每秒请求数依旧不高,我们将并发请求数降为5后,nginx负载能力依旧很低。

此时用top和pidstat发现系统CPU使用率过高,但是并没有发现CPU使用率高的进程。

出现这种情况一般时我们分析时遗漏的什么信息,重新运行top命令并观察一会。发现就绪队列中处于Running状态的进行过多,超过了我们的并发请求次数5. 再仔细查看进程运行数据,发现nginx和php-fpm都处于sleep状态,真正处于运行的却是几个stress进程。

下一步就利用pidstat分析这几个stress进程,发现没有任何输出。用ps aux交叉验证发现依旧不存在该进程。说明不是工具的问题。再top查看发现stress进程的进程号变化了,此时有可能时以下两种原因导致:

  • 进程不停的崩溃重启(如段错误/配置错误等),此时进程退出后可能又被监控系统重启;
  • 短时进程导致,即其他应用内部通过exec调用的外面命令,这些命令一般只运行很短时间就结束,很难用top这种间隔较长的工具来发现

可以通过pstree来查找 stress的父进程,找出调用关系。

pstree | grep stress
登入後複製

发现是php-fpm调用的该子进程,此时去查看源码可以看出每个请求都会调用一个stress命令来模拟I/O压力。之前top显示的结果是CPU使用率升高,是否真的是由该stress命令导致的,还需要继续分析。代码中给每个请求加了verbose=1的参数后可以查看stress命令的输出,在中断测试该命令结果显示stress命令运行时存在因权限问题导致的文件创建失败的bug。

此时依旧只是猜测,下一步继续通过perf工具来分析。性能报告显示确实时stress占用了大量的CPU,通过修复权限问题来优化解决即可.

系統中出現大量不可中斷行程和殭屍行程怎麼辦?

進程狀態

  • #R Running/Runnable,表示該行程在CPU的就緒佇列中,正在執行或等待運行;
  • D Disk Sleep,不可中斷狀態睡眠,一般表示進程正在跟硬體交互,並且交互過程中不允許被其他進程中斷;
  • Z Zombie,殭屍行程,表示行程其實已經結束,但父行程還沒有回收它的資源;
  • S Interruptible Sleep,可中斷睡眠狀態,表示行程因為等待某個事件而被系統掛起,當等待事件發生則會被喚醒並進入R狀態;
  • I Idle,空閒狀態,用在不可中斷睡眠的核心執行緒上。该状态不会导致平均负载升高;
  • T Stop/Traced,表示进程处于暂停或跟踪状态(SIGSTOP/SIGCONT, GDB调试);
  • X Dead,进程已经消亡,不会在top/ps中看到。

对于不可中断状态,一般都是在很短时间内结束,可忽略。但是如果系统或硬件发生故障,进程可能会保持不可中断状态很久,甚至系统中出现大量不可中断状态,此时需注意是否出现了I/O性能问题。

僵尸进程一般多进程应用容易遇到,父进程来不及处理子进程状态时子进程就提前退出,此时子进程就变成了僵尸进程。大量的僵尸进程会用尽PID进程号,导致新进程无法建立。

磁盘O_DIRECT问题

sudo docker run --privileged --name=app -itd feisky/app:iowait
ps aux | grep '/app'
登入後複製

可以看到此时有多个app进程运行,状态分别时Ss+和D+。其中后面s表示进程是一个会话的领导进程,+号表示前台进程组。

其中进程组表示一组相互关联的进程,子进程是父进程所在组的组员。会话指共享同一个控制终端的一个或多个进程组。

用top查看系统资源发现:1)平均负载在逐渐增加,且1分钟内平均负载达到了CPU个数,说明系统可能已经有了性能瓶颈;2)僵尸进程比较多且在不停增加;3)us和sys CPU使用率都不高,iowait却比较高;4)每个进程CPU使用率也不高,但有两个进程处于D状态,可能在等待IO。

分析目前数据可知:iowait过高导致系统平均负载升高,僵尸进程不断增长说明有程序没能正确清理子进程资源。

用dstat来分析,因为它可以同时查看CPU和I/O两种资源的使用情况,便于对比分析。

dstat 1 10    #间隔1秒输出10组数据
登入後複製

可以看到当wai(iowait)升高时磁盘请求read都会很大,说明iowait的升高和磁盘的读请求有关。接下来分析到底时哪个进程在读磁盘。

之前top查看的处于D状态的进程号,用pidstat -d -p XXX 展示进程的I/O统计数据。发现处于D状态的进程都没有任何读写操作。在用pidstat -d 查看所有进程的I/O统计数据,看到app进程在进行磁盘读操作,每秒读取32MB的数据。进程访问磁盘必须使用系统调用处于内核态,接下来重点就是找到app进程的系统调用。

sudo strace -p XXX #对app进程调用进行跟踪
登入後複製

报错没有权限,因为已经时root权限了。所以遇到这种情况,首先要检查进程状态是否正常。ps命令查找该进程已经处于Z状态,即僵尸进程。

这种情况下top pidstat之类的工具无法给出更多的信息,此时像第5篇一样,用perf record -d和perf report进行分析,查看app进程调用栈。

看到app确实在通过系统调用sys_read()读取数据,并且从new_sync_read和blkdev_direct_IO看出进程时进行直接读操作,请求直接从磁盘读,没有通过缓存导致iowait升高。

通过层层分析后,root cause是app内部进行了磁盘的直接I/O。然后定位到具体代码位置进行优化即可。

僵尸进程

上述优化后iowait显著下降,但是僵尸进程数量仍旧在增加。首先要定位僵尸进程的父进程,通过pstree -aps XXX,打印出该僵尸进程的调用树,发现父进程就是app进程。

查看app代码,看看子进程结束的处理是否正确(是否调用wait()/waitpid(),有没有注册SIGCHILD信号的处理函数等)。

碰到iowait升高时,先用dstat pidstat等工具确认是否存在磁盘I/O问题,再找是哪些进程导致I/O,不能用strace直接分析进程调用时可以通过perf工具分析。

对于僵尸问题,用pstree找到父进程,然后看源码检查子进程结束的处理逻辑即可。

CPU效能指標

  • CPU使用率

    #
    • 用戶CPU使用率, 包括用戶狀態(user)和低優先級用戶態(nice). 此指標過高說明應用程式比較繁忙.
    • 系統CPU使用率, CPU在核心狀態運作的時間百分比(不含中斷). 此指標高說明核心較繁忙.
    • #等待I/O的CPU使用率, iowait, 此指標高說明系統與硬體設備I/O交互時間比較長.
    • 軟體/硬中斷CPU使用率, 此指標高說明系統中發生大量中斷.
    • steal CPU / guest CPU, 表示虛擬機器所佔用的CPU百分比.
  • #平均負載

    ## 理想情況下平均負載等於邏輯CPU個數,表示每個CPU都被充分利用. 若大於則說明系統負載較重.

  • 進程上下文切換

    包含無法取得資源的自願切換和系統強制調度時的非自願切換. 上下文切換本身是保證Linux正常運行的一項核心功能. 過多的切換則會將原本運行進程的CPU時間消耗在暫存器,內核佔及虛擬記憶體等資料保存與復原上。另外,搜尋公眾號程式設計師小樂後台回覆“面試題”,取得驚喜禮包。

  • CPU快取命中率

    CPU快取的重複使用情況,命中率越高效能越好. 其中L1/L2常用在單核心,L3則用在多核心

效能工具

  • #平均負載案例
    • 先用uptime查看系統平均負載
    • #判斷負載在升高後再用mpstat和pidstat分別查看每個CPU和每個行程CPU使用情況.找出導致平均負載較高的進程.
  • #上下文切換案例
    • 先用vmstat查看系統上下文切換與中斷次數
    • 再用pidstat觀察行程的自願與非自願上下文切換情況
    • 最後透過pidstat觀察執行緒的上下文切換狀況
  • #程式CPU使用率高案例
    • 先用top查看系統與進程的CPU使用情況,定位到進程
    • 再用perf top觀察程序呼叫鏈,定位到具體函數
  • #系統CPU使用率高案例
    • 先用top檢視系統與行程的CPU使用情況,top/pidstat都無法找到CPU使用率高的進程
    • ##重新檢視top輸出
    • 從CPU使用率不高,但是處於Running狀態的進程入手
      #
    • perf record/report發現短時進程導致(execsnoop工具)
  • #不可中斷和殭屍進程案例
    • 先用top觀察iowait升高,發現大量不可中斷和殭屍行程
    • strace無法追蹤進程系統呼叫
    • perf分析呼叫鏈發現根源來自磁碟直接I/O
  • 軟體中斷案例
    • #top觀察系統軟體中斷CPU使用率高
    • #檢視/proc/softirqs找到變化速率較快的幾種軟體中斷
    • sar指令發現是網路小包問題
    • tcpdump找出網路影格的類型和來源, 決定SYN FLOOD攻擊導致

##根據不同的效能指標來找合適的工具:

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

在生產環境中往往開發者沒有權限安裝新的工具包,只能最大化利用好系統中已經安裝好的工具. 因此要了解一些主流工具能夠提供哪些指標分析.#

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

#先運行幾個支援指標較多的工具, 如top/vmstat /pidstat,根據它們的輸出可以得出是哪種類型的性能問題. 定位到進程後再用strace/perf分析調用情況進一步分析. 如果是軟中斷導致用/proc/softirqs

#
Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

CPU優化

  • ##應用程式最佳化#

    • 編譯器最佳化: 編譯階段開啟最佳化選項, 如gcc -O2
    • 演算法最佳化
    • 非同步處理: 避免程式因為等待某個資源而一直阻塞,提升程式的同時處理能力. (將輪詢替換為事件通知)
    • 多執行緒取代多行程: 減少上下文切換成本
    • 善用快取:加快程式處理速度
  • 系統最佳化

    • CPU綁定: 將進程綁定要1個/多個CPU上,提高CPU快取命中率,減少CPU調度帶來的上下文切換
    • CPU獨佔: CPU親和性機制來指派行程
    • ##優先權調整:使用nice適當降低非核心應用的優先權
    • 為行程設定資源顯示: cgroups設定使用上限,防止由某個應用自身問題耗盡系統資源
    • NUMA最佳化: CPU盡可能存取本機記憶體
    • 中斷負載平衡: irpbalance ,將中斷處理過程自動負載平衡到各個CPU上
  • #TPS、QPS、系統吞吐量的區別和理解

    • QPS(TPS)

    • 並發數字

    • 回應時間

      QPS(TPS)=並發數/平均對應時間

    • 使用者請求伺服器

    • 伺服器內部處理

    • 伺服器傳回給客戶

      QPS類似TPS,但是對於一個頁面的存取形成一個TPS,但是一次頁面請求可能包含多次對伺服器的請求,可能計入多次QPS

    • QPS (Queries Per Second)每秒查詢率,一台伺服器每秒能夠回應的查詢次數.

      #
    • TPS (Transactions Per Second)每秒事務數,軟體測試的結果.

    • 系統吞吐量, 包含幾個重要參數:

      #

3記憶體

Linux記憶體是怎麼運作的

記憶體映射

大多數電腦用的主記憶體都是動態隨機存取記憶體(DRAM),只有核心才可以直接存取物理內存。 Linux核心為每個行程提供了一個獨立的虛擬位址空間,而這個位址空間是連續的。這樣進程就可以很方便的存取記憶體(虛擬記憶體)。

虛擬位址空間的內部分為核心空間與使用者空間兩部分,不同字長的處理器位址空間的範圍不同。 32位元系統核心空間佔用1G,用戶空間佔3G。 64位元系統核心空間和用戶空間都是128T,分別佔記憶體空間的最高和最低處,中間部分為未定義。

並不是所有的虛擬記憶體都會分配實體內存,只有實際使用的才會。分配後的實體記憶體透過記憶體映射管理。為了完成記憶體映射,核心為每個進程都維護了一個頁表,記錄虛擬位址和實體位址的映射關係。頁表實際儲存在CPU的記憶體管理單元MMU中,處理器可以直接透過硬體找出要存取的記憶體。

當進程存取的虛擬地址在頁表中查不到時,系統會產生一個缺頁異常,進入內核空間分配物理內存,更新進程頁表,再返回用戶空間復原程序的運作。

MMU以頁為單位管理內存,頁大小4KB。為了解決頁表項過多問題Linux提供了多層頁表HugePage的機制。

虛擬記憶體空間分佈

使用者空間記憶體從低到高是五種不同的記憶體段:

#
  • 只讀段 程式碼與常數等
  • #資料段 全域變數等
  • 堆疊 動態分配的內存,從低位址開始向上成長
  • 檔案對應 動態函式庫、共享記憶體等,從高位址開始向下成長
  • 堆疊 包括局部變數和函數呼叫的上下文等,堆疊的大小是固定的。一般8MB

記憶體分配與回收

已分配

##malloc對應到系統呼叫上有兩種實作方式:

  • brk() 針對小塊記憶體(<128K),透過移動堆頂位置來分配。內存釋放後不立即歸還內存,而是被緩存起來。
  • **mmap()**針對大塊記憶體(>128K),直接用記憶體映射來分配,即在檔案映射段找一塊空閒記憶體分配。

前者的快取可以減少缺頁異常的發生,提高記憶體存取效率。但是由於記憶體沒有歸還系統,在記憶體工作繁忙時,頻繁的記憶體分配/釋放會造成記憶體碎片。

後者在釋放時直接歸還系統,所以每次mmap都會發生缺頁異常。在記憶體工作繁忙時,頻繁記憶體分配會導致大量缺頁異常,使核心管理負擔增加。

上述兩種呼叫並沒有真正分配內存,這些內存只有在首次訪問時,才通過缺頁異常進入內核中,由內核來分配

#
回收

記憶體緊張時,系統會透過以下方式回收記憶體:

  • 回收快取:LRU演算法回收最近最少使用的記憶體頁面;

  • #回收不常存取記憶體:把不常用的記憶體透過交換分區寫入磁碟

  • 殺死進程:OOM核心保護機制(進程消耗記憶體越大oom_score越大,佔用CPU越多oom_score越小,可以透過/proc手動調整oom_adj)

    echo -16 > /proc/$(pidof XXX)/oom_adj
    登入後複製

如何查看内存使用情况

free来查看整个系统的内存使用情况

top/ps来查看某个进程的内存使用情况

  • VIRT 程序的虛擬記憶體大小
  • RES 常駐記憶體的大小,即進程實際使用的實體記憶體大小,不包括swap和共享記憶體
  • #SHR 共享記憶體大小,與其他進程共享的內存,載入的動態連結庫以及程式碼片段
  • #%MEM 進程使用物理記憶體佔系統總記憶體的百分比

怎麼理解記憶體中的Buffer和Cache?

buffer是磁碟資料的緩存,cache是​​對檔案資料的緩存,它們既會用在讀取請求也會用在寫入請求中

如何利用系統快取最佳化程式的運作效率

快取命中率

快取命中率是指直接透過快取取得資料的請求次數,佔所有請求次數的百分比。 命中率越高表示快取帶來的效益越高,應用程式的效能也越好。

安裝bcc套件後可以透過cachestat和cachetop來監測快取的讀寫命中情況。

安装pcstat后可以查看文件在内存中的缓存大小以及缓存比例

#首先安装Go
export GOPATH=~/go
export PATH=~/go/bin:$PATH
go get golang.org/x/sys/unix
go ge github.com/tobert/pcstat/pcstat
登入後複製

dd缓存加速

dd if=/dev/sda1 of=file bs=1M count=512 #生产一个512MB的临时文件
echo 3 > /proc/sys/vm/drop_caches #清理缓存
pcstat file #确定刚才生成文件不在系统缓存中,此时cached和percent都是0
cachetop 5
dd if=file of=/dev/null bs=1M #测试文件读取速度
#此时文件读取性能为30+MB/s,查看cachetop结果发现并不是所有的读都落在磁盘上,读缓存命中率只有50%。
dd if=file of=/dev/null bs=1M #重复上述读文件测试
#此时文件读取性能为4+GB/s,读缓存命中率为100%
pcstat file #查看文件file的缓存情况,100%全部缓存
登入後複製

O_DIRECT选项绕过系统缓存

cachetop 5
sudo docker run --privileged --name=app -itd feisky/app:io-direct
sudo docker logs app #确认案例启动成功
#实验结果表明每读32MB数据都要花0.9s,且cachetop输出中显示1024次缓存全部命中
登入後複製

但是凭感觉可知如果缓存命中读速度不应如此慢,读次数时1024,页大小为4K,五秒的时间内读取了1024*4KB数据,即每秒0.8MB,和结果中32MB相差较大。说明该案例没有充分利用缓存,怀疑系统调用设置了直接I/O标志绕过系统缓存。因此接下来观察系统调用.

strace -p $(pgrep app)
#strace 结果可以看到openat打开磁盘分区/dev/sdb1,传入参数为O_RDONLY|O_DIRECT
登入後複製

这就解释了为什么读32MB数据那么慢,直接从磁盘读写肯定远远慢于缓存。找出问题后我们再看案例的源代码发现flags中指定了直接IO标志。删除该选项后重跑,验证性能变化。

記憶體洩漏,如何定位和處理?

對應用程式來說,動態記憶體的分配和回收是核心又複雜的一個邏輯功能模組。管理記憶體的過程中會發生各種各樣的「事故」:

  • 沒正確回收分配的內存,導致了洩漏
  • 訪問的是已分配記憶體邊界外的位址,導致程式異常退出

記憶體的分配與回收

虛擬記憶體分佈從低到高分別是只讀段,資料段,堆,記憶體映射段,棧五部分。其中會導致記憶體洩漏的是:

  • 堆:由應用程式自行分配和管理,除非程式退出這些堆記憶體不會被系統自動釋放。
  • 記憶體映射段:包括動態連結庫和共享內存,其中共享記憶體由程式自動分配和管理

記憶體洩漏的危害比較大,這些忘記釋放的內存,不僅應用程式自己不能訪問,系統也不能把它們再次分配給其他應用程式。  記憶體洩漏不斷累積甚至會耗盡系統記憶體.

如何偵測記憶體洩漏

預先安裝systat,docker,bcc

sudo docker run --name=app -itd feisky/app:mem-leak
sudo docker logs app
vmstat 3
登入後複製

可以看到free在不断下降,buffer和cache基本保持不变。说明系统的内存一致在升高。但并不能说明存在内存泄漏。此时可以通过memleak工具来跟踪系统或进程的内存分配/释放请求。另外,搜索公众号Linux就该这样学后台回复“git书籍”,获取一份惊喜礼包。

/usr/share/bcc/tools/memleak -a -p $(pidof app)
登入後複製

从memleak输出可以看到,应用在不停地分配内存,并且这些分配的地址并没有被回收。通过调用栈看到是fibonacci函数分配的内存没有释放。定位到源码后查看源码来修复增加内存释放函数即可.

为什么系统的Swap变高

系统内存资源紧张时通过内存回收和OOM杀死进程来解决。其中可回收内存包括:

  • 快取/緩衝區,屬於可回收資源,在檔案管理中通常叫做檔案頁
    • 在應用程式中透過fsync將髒頁同步到磁碟
    • #交給系統,核心執行緒pdflush負責這些髒頁的刷新
    • 被應用程式修改過暫時沒寫入磁碟的資料(髒頁),要先寫入磁碟然後才能記憶體釋放
  • 記憶體映射所取得的檔案映射頁,也可以被釋放掉,下次造訪時從檔案重新讀取

對於程式自動分配的堆內存,也就是我們在內存管理中的匿名頁,雖然這些內存不能直接釋放,但是Linux提供了Swap機制將不常訪問的內存寫入到磁碟來釋放內存,再次訪問時從磁碟讀取到記憶體即可。

Swap原理

Swap本質就是把一塊磁碟空間或一個本機檔案當作記憶體來使用,包括換入和換出兩個流程:

  • 換出:將進程暫時不用的記憶體資料儲存到磁碟中,並釋放這些記憶體
  • 換入:當進程再次存取記憶體時,將它們從磁碟讀到記憶體中

#Linux如何衡量記憶體資源是否緊張?

  • 直接記憶體回收 新的大塊記憶體分配請求,但剩餘記憶體不足。此時系統會回收一部分記憶體;

  • #kswapd0 核心執行緒定期回收記憶體。為了衡量記憶體使用情況,定義了pages_min,pages_low,pages_high三個閾值,並根據其來進行記憶體的回收操作。

    • 剩餘記憶體< pages_min,進程可用記憶體耗盡了,只有核心才可以分配記憶體

    • pages_min < 剩餘記憶體< pages_low,記憶體壓力較大,kswapd0執行記憶體回收,直到剩餘記憶體> pages_high

    • #pages_low < 剩餘記憶體< pages_high,記憶體有一定壓力,但可以滿足新記憶體要求

    • 剩余内存 > pages_high,说明剩余内存较多,无内存压力

      pages_low = pages_min 5 / 4 pages_high = pages_min 3 / 2

NUMA 与 SWAP

很多情况下系统剩余内存较多,但SWAP依旧升高,这是由于处理器的NUMA架构。

在NUMA架构下多个处理器划分到不同的Node,每个Node都拥有自己的本地内存空间。在分析内存的使用时应该针对每个Node单独分析

numactl --hardware #查看处理器在Node的分布情况,以及每个Node的内存使用情况
登入後複製

内存三个阈值可以通过/proc/zoneinfo来查看,该文件中还包括活跃和非活跃的匿名页/文件页数。

當某個Node記憶體不足時,系統可以從其他Node尋找空閒資源,也可以從本機記憶體回收記憶體。透過/proc/sys/vm/zone_raclaim_mode來調整。

  • 0表示可以從其他Node尋找空閒資源,也可以從本地回收記憶體
  • 1,2,4表示只回收本地內存,2表示可以會回髒資料回收內存,4表示可以用Swap方式回收內存。

swappiness

#在實際回收過程中Linux根據/proc/sys/vm/swapiness選項來調整使用Swap的正面程度,從0-100,數值越大越積極使用Swap,也就是更傾向於回收匿名頁;數值越小越負面使用Swap,也就是更傾向於回收文件頁。

注意:这只是调整Swap积极程度的权重,即使设置为0,当剩余内存+文件页小于页高阈值时,还是会发生Swap。

Swap升高时如何定位分析

free #首先通过free查看swap使用情况,若swap=0表示未配置Swap
#先创建并开启swap
fallocate -l 8G /mnt/swapfile
chmod 600 /mnt/swapfile
mkswap /mnt/swapfile
swapon /mnt/swapfile

free #再次执行free确保Swap配置成功

dd if=/dev/sda1 of=/dev/null bs=1G count=2048 #模拟大文件读取
sar -r -S 1  #查看内存各个指标变化 -r内存 -S swap
#根据结果可以看出,%memused在不断增长,剩余内存kbmemfress不断减少,缓冲区kbbuffers不断增大,由此可知剩余内存不断分配给了缓冲区
#一段时间之后,剩余内存很小,而缓冲区占用了大部分内存。此时Swap使用之间增大,缓冲区和剩余内存只在小范围波动

停下sar命令
cachetop5 #观察缓存
#可以看到dd进程读写只有50%的命中率,未命中数为4w+页,说明正式dd进程导致缓冲区使用升高
watch -d grep -A 15 ‘Normal’ /proc/zoneinfo #观察内存指标变化
#发现升级内存在一个小范围不停的波动,低于页低阈值时会突然增大到一个大于页高阈值的值
登入後複製

说明剩余内存和缓冲区的波动变化正是由于内存回收和缓存再次分配的循环往复。有时候Swap用的多,有时候缓冲区波动更多。此时查看swappiness值为60,是一个相对中和的配置,系统会根据实际运行情况来选去合适的回收类型.

如何「快準狠」找到系統記憶體存在的問題

記憶體效能指標

系統內存指標

  • 已使用記憶體/剩餘記憶體
  • #共享記憶體(tmpfs實作)
  • #可用記憶體:包括剩餘記憶體和可回收記憶體
  • 快取:磁碟讀取檔案的頁緩存,slab分配器中的可回收部分
  • 緩衝區:原始磁碟區塊的臨時存儲,快取將要寫入磁碟的資料

進程記憶體指標

#
  • 虛擬記憶體:5大部分
  • #常駐記憶體:進程實際使用的實體內存,不包含Swap和共享記憶體
  • 共享記憶體:與其他進程共享的內存,以及動態連結函式庫和程式的程式碼片段
  • Swap記憶體:透過Swap換出到磁碟的記憶體。 關注Linux中文社群

#缺頁異常

  • 可以直接從實體記憶體中分配,次缺頁異常
  • #需要磁碟IO介入(如Swap) ,主缺頁異常。此時記憶體存取會慢很多

記憶體效能工具

根據不同的效能指標來找合適的工具:

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

#記憶體分析工具包含的效能指標:

Linux 效能全方位調優經驗總結
圖片來自: www.ctq6.cn

#如何快速分析記憶體的效能瓶頸

通常先運行幾個覆蓋面比較大的效能工具,如free,top,vmstat,pidstat等

#
  • 先用free和top查看系統整體記憶體使用量
  • #再用vmstat和pidstat,查看一段時間的趨勢,從而判斷記憶體問題的類型
  • 最後進行詳細分析,例如記憶體分配分析,快取/緩衝區分析,具體進程的記憶體使用分析等

常見的最佳化思路:

  • 最好禁止Swap,若必須開啟則盡量降低swappiness的值
  • 減少記憶體的動態分配,如可用記憶體池,HugePage等
  • 盡量使用快取和緩衝區來存取資料。如用堆疊明確聲明記憶體空間來儲存需要快取的數據,或用Redis外部快取元件來優化數據的存取
  • cgroups等方式來限制進程的記憶體使用情況,確保系統記憶體不會被異常進程耗盡
  • /proc/pid/oom_adj調整核心應用的oom_score,保證即使記憶體緊張核心應用也不會被OOM殺死
#vmstat使用詳解

vmstat指令是最常見的Linux/Unix監控工具,可以展現給定時間間隔的伺服器的狀態值,包含伺服器的CPU使用率,記憶體使用,虛擬記憶體交換狀況,IO讀寫狀況。可以看到整个机器的CPU,内存,IO的使用情况,而不是单单看到各个进程的CPU使用率和内存使用率(使用场景不一样)。

vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0 1379064 282244 11537528    0    0     3   104    0    0  3  0 97  0  0
 0  0      0 1372716 282244 11537544    0    0     0    24 4893 8947  1  0 98  0  0
 0  0      0 1373404 282248 11537544    0    0     0    96 5105 9278  2  0 98  0  0
 0  0      0 1374168 282248 11537556    0    0     0     0 5001 9208  1  0 99  0  0
 0  0      0 1376948 282248 11537564    0    0     0    80 5176 9388  2  0 98  0  0
 0  0      0 1379356 282256 11537580    0    0     0   202 5474 9519  2  0 98  0  0
 1  0      0 1368376 282256 11543696    0    0     0     0 5894 8940 12  0 88  0  0
 1  0      0 1371936 282256 11539240    0    0     0 10554 6176 9481 14  1 85  1  0
 1  0      0 1366184 282260 11542292    0    0     0  7456 6102 9983  7  1 91  0  0
 1  0      0 1353040 282260 11556176    0    0     0 16924 7233 9578 18  1 80  1  0
 0  0      0 1359432 282260 11549124    0    0     0 12576 5495 9271  7  0 92  1  0
 0  0      0 1361744 282264 11549132    0    0     0    58 8606 15079  4  2 95  0  0
 1  0      0 1367120 282264 11549140    0    0     0     2 5716 9205  8  0 92  0  0
 0  0      0 1346580 282264 11562644    0    0     0    70 6416 9944 12  0 88  0  0
 0  0      0 1359164 282264 11550108    0    0     0  2922 4941 8969  3  0 97  0  0
 1  0      0 1353992 282264 11557044    0    0     0     0 6023 8917 15  0 84  0  0

# 结果说明
- r 表示运行队列(就是说多少个进程真的分配到CPU),我测试的服务器目前CPU比较空闲,没什么程序在跑,当这个值超过了CPU数目,就会出现CPU瓶颈了。这个也和top的负载有关系,一般负载超过了3就比较高,超过了5就高,超过了10就不正常了,服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大,表示你的CPU很繁忙,一般会造成CPU使用率很高。

- b 表示阻塞的进程,这个不多说,进程阻塞,大家懂的。

- swpd 虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了,如果不是程序内存泄露的原因,那么你该升级内存了或者把耗内存的任务迁移到其他机器。

- free   空闲的物理内存的大小,我的机器内存总共8G,剩余3415M。

- buff   Linux/Unix系统是用来存储,目录里面有什么内容,权限等的缓存,我本机大概占用300多M

- cache cache直接用来记忆我们打开的文件,给文件做缓冲,我本机大概占用300多M(这里是Linux/Unix的聪明之处,把空闲的物理内存的一部分拿来做文件和目录的缓存,是为了提高 程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。)

- si  每秒从磁盘读入虚拟内存的大小,如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。我的机器内存充裕,一切正常。

- so  每秒虚拟内存写入磁盘的大小,如果这个值大于0,同上。

- bi  块设备每秒接收的块数量,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte,我本机上没什么IO操作,所以一直是0,但是我曾在处理拷贝大量数据(2-3T)的机器上看过可以达到140000/s,磁盘写入速度差不多140M每秒

- bo 块设备每秒发送的块数量,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。

- in 每秒CPU的中断次数,包括时间中断

- cs 每秒上下文切换次数,例如我们调用系统函数,就要进行上下文切换,线程的切换,也要进程上下文切换,这个值要越小越好,太大了,要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中,我们一般做性能测试时会进行几千并发甚至几万并发的测试,选择web服务器的进程可以由进程或者线程的峰值一直下调,压测,直到cs到一个比较小的值,这个进程和线程数就是比较合适的值了。系统调用也是,每次调用系统函数,我们的代码就会进入内核空间,导致上下文切换,这个是很耗资源,也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。

- us 用户CPU时间,我曾经在一个做加密解密很频繁的服务器上,可以看到us接近100,r运行队列达到80(机器在做压力测试,性能表现不佳)。

- sy 系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。

- id 空闲CPU时间,一般来说,id + us + sy = 100,一般我认为id是空闲CPU使用率,us是用户CPU使用率,sy是系统CPU使用率。

- wt 等待IO CPU时间
登入後複製
pidstat 使用详解

pidstat主要用于监控全部或指定进程占用系统资源的情况,如CPU,内存、设备IO、任务切换、线程等。

使用方法:

  • pidstat –d interval times 統計各個進程的IO使用情況
  • ##pidstat –u interval times 統計各個流程的CPU統計資訊
  • pidstat –r interval times 統計各程式的記憶體使用資訊
  • pidstat -w interval times 統計各個程序的上下文切換
  • p PID 指定PID

1、統計IO使用情況#

pidstat -d 1 10

03:02:02 PM   UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s  Command
03:02:03 PM     0       816      0.00    918.81      0.00  jbd2/vda1-8
03:02:03 PM     0      1007      0.00      3.96      0.00  AliYunDun
03:02:03 PM   997      7326      0.00   1904.95    918.81  java
03:02:03 PM   997      8539      0.00      3.96      0.00  java
03:02:03 PM     0     16066      0.00     35.64      0.00  cmagent

03:02:03 PM   UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s  Command
03:02:04 PM     0       816      0.00   1924.00      0.00  jbd2/vda1-8
03:02:04 PM   997      7326      0.00  11156.00   1888.00  java
03:02:04 PM   997      8539      0.00      4.00      0.00  java
登入後複製
  • UID
  • PID
  • kB_rd/s: 每秒进程从磁盘读取的数据量 KB 单位 read from disk each second KB
  • kB_wr/s: 每秒进程向磁盘写的数据量 KB 单位 write to disk each second KB
  • kB_ccwr/s: 每秒进程向磁盘写入,但是被取消的数据量,This may occur when the task truncates some dirty pagecache.
  • iodelay: Block I/O delay, measured in clock ticks
  • Command: 进程名 task name

2、统计CPU使用情况

# 统计CPU
pidstat -u 1 10
03:03:33 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
03:03:34 PM     0      2321    3.96    0.00    0.00    3.96     0  ansible
03:03:34 PM     0      7110    0.00    0.99    0.00    0.99     4  pidstat
03:03:34 PM   997      8539    0.99    0.00    0.00    0.99     5  java
03:03:34 PM   984     15517    0.99    0.00    0.00    0.99     5  java
03:03:34 PM     0     24406    0.99    0.00    0.00    0.99     5  java
03:03:34 PM     0     32158    3.96    0.00    0.00    3.96     2  ansible
登入後複製
  • UID
  • PID
  • %usr: 进程在用户空间占用 cpu 的百分比
  • %system: 进程在内核空间占用 CPU 百分比
  • %guest: 进程在虚拟机占用 CPU 百分比
  • %wait: 进程等待运行的百分比
  • %CPU: 进程占用 CPU 百分比
  • CPU: 处理进程的 CPU 编号
  • Command: 进程名

3、統計記憶體使用量

# 统计内存
pidstat -r 1 10
Average:      UID       PID  minflt/s  majflt/s     VSZ    RSS   %MEM  Command
Average:        0         1      0.20      0.00  191256   3064   0.01  systemd
Average:        0      1007      1.30      0.00  143256  22720   0.07  AliYunDun
Average:        0      6642      0.10      0.00 6301904 107680   0.33  java
Average:      997      7326     10.89      0.00 13468904 8395848  26.04  java
Average:        0      7795    348.15      0.00  108376   1233   0.00  pidstat
Average:      997      8539      0.50      0.00 8242256 2062228   6.40  java
Average:      987      9518      0.20      0.00 6300944 1242924   3.85  java
Average:        0     10280      3.70      0.00  807372   8344   0.03  aliyun-service
Average:      984     15517      0.40      0.00 6386464 1464572   4.54  java
Average:        0     16066    236.46      0.00 2678332  71020   0.22  cmagent
Average:      995     20955      0.30      0.00 6312520 1408040   4.37  java
Average:      995     20956      0.20      0.00 6093764 1505028   4.67  java
Average:        0     23936      0.10      0.00 5302416 110804   0.34  java
Average:        0     24406      0.70      0.00 10211672 2361304   7.32  java
Average:        0     26870      1.40      0.00 1470212  36084   0.11  promtail
登入後複製
  • UID
  • PID
  • Minflt/s : 每秒次缺页错误次数 (minor page faults),虚拟内存地址映射成物理内存地址产生的 page fault 次数
  • Majflt/s : 每秒主缺页错误次数 (major page faults), 虚拟内存地址映射成物理内存地址时,相应 page 在 swap 中
  • VSZ virtual memory usage : 该进程使用的虚拟内存 KB 单位
  • RSS : 该进程使用的物理内存 KB 单位
  • %MEM : 内存使用率
  • Command : 该进程的命令 task name

4、查看具体进程使用情况

pidstat -T ALL -r -p 20955 1 10
03:12:16 PM   UID       PID  minflt/s  majflt/s     VSZ    RSS   %MEM  Command
03:12:17 PM   995     20955      0.00      0.00 6312520 1408040   4.37  java

03:12:16 PM   UID       PID minflt-nr majflt-nr  Command
03:12:17 PM   995     20955         0         0  java
登入後複製

以上是Linux 效能全方位調優經驗總結的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:Linux中文社区
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板