容我感慨一下:DBA真的不是蓋的
#如係統偶爾停頓、慢查詢、喚影問題,盡量不要用試錯的方式解決問題:風險大
較高頻率:1s/次執行該指令鋪獲數據,問題出現透過計數器的
開啟慢查詢,設定全域的long_query_time=0,確認all連線採用了新設定(可能需要重設all連線使生效)
注意吞吐量突然下降時間段的日誌,查詢是在完成階段才寫入到慢查詢日誌的
好的工具事半功倍:tcpdump、pt-query-digest、Percona Server
視覺化資料:gnuplot /R(繪圖工具)
安裝 一些指令: 常用技巧 入門
建議:先使用前兩種方法,開銷低且通簡單shell腳本或重複執行的查詢交互式收集資料3.4.2鋪獲診斷資料現間歇性問題,盡量多收集資料(不只是問題出現時的)弄清楚:1、有區分何時出現了問題 的方法:觸發器;2、收集診斷資料的工具診斷觸發器誤差:在沒有發生問題期間收集了很多診斷數據,浪費時間(這個和前的、仔細讀一下不矛盾)漏檢:在問題出現時沒有鋪獲到數據,錯失了機會,開始收集前確認觸發器能夠真正地識別問題#好的觸發器:
找到些能和正常時的閾值進行比較的指標選擇一個合適的閾值:足夠高(正常時不會觸發)、不能太高(問題發生時不錯過)推薦工具pt-stalk【參考】【2】觸發器,設定到某個條件記錄配置需監控的變數閾值檢查的頻率收集什麼樣的資料執行時間:工作的時間和等待的時間
在需要的時間段內收集all能收集的資料
未知問題發生的原因:1 、伺服器需做大量工作、導致大量消耗CPU;2、在等待資源釋放
不同的方法收集診斷數據,確認原因:1、剖析報告:確認是否有太多工作,工具:tcpdump 監聽TCP流量模式開閉慢查詢日誌2、等待分析:確認是否有大量等待,GDB堆疊追蹤資訊、show processlist ,show innodb status觀察線程、交易狀態解釋結果數據目的:1、問題是否真的發生了;2、是否有明顯的跳躍性變化
工具:
#oprofile利用cpu硬體層面提供的效能計數器(performance counter),透過計數取樣,幫助我們從行程、函數、程式碼層面找出佔用cpu的"罪魁禍首"。實例【參考】
opreport指令,分別從進程和函數層面檢視cpu使用情況的方法samples | %| ----------------------------------------------------- 镜像内发生的采样次数 采样次数所占总采样次数的百分比 镜像名称
#GDB:Linux應用程式開發中,最常用的偵錯器是gdb(偵錯的物件是可執行檔),它可以在程式中設定斷點、查看變數值、一步一步追蹤程式的執行過程(資料、來源碼)、檢視記憶體、堆疊資訊。利用偵錯器的這些功能可以方便地找出程式中存在的非語法錯誤。 【參考】【參考】 語法與實例
3.4.3一個診斷案例間歇性效能問題,具備MySQL、innodb、GNU/Linux相關知識#明確:1、問題是什麼,清楚描述;2、為解決問題已做過什麼操作?
開始:1、了解伺服器的行為;2、梳理伺服器的狀態參數配置軟硬體環境(pt-summary pt-mysql-summary)
#不要被離題太多的各種情況分散了注意力,問題寫在紙條上,檢查一個劃掉一個是原因還是結果? ? ?資源變得效率低可能的原因:
1、資源過度使用,餘額不足;2、資源未被正確配對;3、資源損壞或失靈
oprofile使用花費CPU週期
#小結:無法測量便無法有效優化,性能優化工作需要基於高品質、全方位及完整的響應時間測量
測量的最佳開始點是應用程序,即使問題出在底層的資料庫,借助良好的測量較容易發現問題
#大多數系統無法完整地測量,測量有時也會有錯誤的結果,想辦法繞過些限制,要能意識到方法的缺陷和不確定性在哪
完整的測量會產生大量需要分析的數據,so需要用到剖析器(最佳工具)
剖析報告:總結訊息,掩蓋和丟棄了很多細節,不會告訴你缺了什麼,不能完全依賴
兩種消耗時間的操作:工作或等待,almost剖析器只能測量因工作而消耗的時間,so等待分享有時是很有用的補充,特別是cpu利用率低但工作一直無法完成的情況
優化和提升兩回事,當繼續提升的成本超過收益時,應停止優化
注意你的直接,思路,決策盡量基於數據
in a words:首先澄清問題、選擇合適技術、善用工具、足夠細心、邏輯清晰且堅持下去,不要把原因和結果搞混,在確定問題前不要隨便針對系統做變動
相關文章:
以上是【MySQL資料庫】第三章解讀:伺服器效能剖析 (下)的詳細內容。更多資訊請關注PHP中文網其他相關文章!