AIOps 為維運工作帶來革命式變革

隨著雲端運算技術的不斷升級，承載業務的IT基礎設施規模不斷擴大，各個應用之間的鏈路關係變得越來越複雜，同時產生了大量的日誌資料。對於日誌資料的收集、儲存和分析處理方式，成為衡量企業系統數位化程度的重要指標。傳統的IT維運方案在面對這些挑戰時也面臨巨大的困境。對於DevOps來說，解決一個問題可能需要花費數小時的時間來查找、對比和分析，需要查看各種日誌、監控數據和其他相關信息，以找出問題的根源。而對於SecOps來說，在海量的數據中進行深度分析意味著他們需要快速挖掘根本原因，從數百TB的數據中尋找異常，這個過程非常耗時且繁瑣，可能需要大量的人力和資源投入

為了解決上述問題，需要引進新一代的AIOps解決方案。這種解決方案透過資料融合分析實現自動化和全端的資料全鏈路可觀測，提供更易於使用的報表和診斷規則，使得所見即所得。透過AI技術的支持，能夠更有效率地自動偵測異常並快速定位根因。 AIOps已經為運維工作帶來了革命性的改變

AI Powered SLS 智能分析能力创新

日誌服務 SLS 如何提升效率？

SLS 自動化全端實現資料擷取

雲端基礎架構可觀測 Alibaba Cloud Lens：提供跨帳號、跨區域、統一的雲端產品維運資料擷取，支援自動擷取計量、指標、存取日誌等資料
應用可觀測全端可觀測：全端資料擷取、客戶端到服務端、基礎設施到應用，資料關聯分析、跨多種資料來源、完整分析語法、豐富上下文支援
安全審計日誌審計：50 資料來源自動接入，安全態勢視覺化圖表，內建 100 安全規則警告監控，提供多帳號管理、跨帳號、跨地域擷取的中心化儲存

SLS提供了即開即用的報表和診斷規則

CloudLens 內建規則：全面的雲端產品輔助運維分析，支援消費群組/API/Grafana 等靈活訂閱的資料平台
全端可觀測內建警告：即時警報、事件管理系統、警告收斂，可自訂儀表板、內建例外偵測和根因分析
Security 內建規則：符合合規、等保、網路安法、GDPR 等標準，內建近百個安全合規監控規則

SLS推出了開放式相容的資料生態

SLS 提供開放相容的資料生態，相容於多種資料來源，統一擷取。
SLS 相容於開源、高性價比的可觀測儲存分析平台。內建 Serverless 分析能力，相容於開源引擎與工具，相容於 Elasticsearch、Kafka、Prometheus、CK，99% 的情況下無縫遷移。
SLS 是離線數倉、資料湖入湖的最佳方案，和三方 SIEM 對接提供 SecOps 雲端上安全審計，並支援多種警告通知管道。

AI Powered SLS 智能分析能力创新

IT 維運場景的基礎模型創新

阿里雲日誌服務（SLS）致力於建構高效、可觀測的運維解決方案。憑藉多年的維運經驗和大語言模型的支持，SLS不斷提昇在這一領域的競爭力。最近，SLS發布了智慧維運基礎模型，涵蓋了日誌、追蹤、指標等可觀測資料場景，支援異常偵測、文字分詞標註、追蹤請求的高延遲分析等功能。此模型提供了即插即用的異常檢測、自動標註、分類和根因分析等能力。在生產環境中，它能夠在數千個請求內以秒級定位到根因，並且準確率超過95%

此外，SLS 提供人工輔助微調的功能。在日誌服務平台上，原生支援對 Log、Metric、Trace 進行標註回饋，讓客戶可以在使用過程中快速進行標註和修正，以累積符合特定場景的資料集。透過平台的標註能力，客戶可以從零開始累積高品質的運維資料標籤，為未來的根因診斷模型訓練提供無限可能。未來，客戶可以針對自己標註的資料在特定領域的模型上微調，並快速部署，創建私有的模型服務。此功能支援自動標註和人工輔助微調，同時支援人工標註結果的修正，模型根據人工回饋自動微調，以提高場景準確率

SLS透過輔助產生查詢語句，成為重要的智慧助理。發布阿里雲CloudLens Copilot大模型輔助雲端設施運維與營運。採用基於大語言模型的NL2Query技術，精準理解使用者的查詢意圖，提高查詢結果準確性；無需理解複雜的SQL語言和查詢語法，可準確將自然語言查詢轉換為SQL查詢和視覺化圖表；建立場景化的知識圖譜，持續學習，不斷優化模型調整和知識庫更新，不斷改進問題解答的準確性和效果

AI Powered SLS 智能分析能力创新

場景範例：智慧異常分析偵測與根因分析

#我們針對遊戲服務系統中呼叫和依賴關係複雜的場景提出了解決方案。我們利用服務中的Trace資料自動產生拓撲圖，並進行高延遲分析、高錯誤率分析、系統熱點和瓶頸等方面的分析和診斷，以縮短問題處理時間並優化系統的延時

透過自動產生的拓樸圖，我們可以快速定位海量 Trace 資料中的異常根因和效能瓶頸，無需人工幹預。這種方法可以提高大規模分散式系統的異常定位效率，並實現數千請求每秒層級的根因定位。在生產環境中，此方案的準確率可達95%

AI Powered SLS 智能分析能力创新

智慧維運基礎模型

#傳統的AIOps技術，例如異常檢測和根因定位，有以下兩個主要問題：

AIOps 演算法涉及到許多閾值、規則的配置，在不同業務場景這些配置項都需要反覆測試選擇。因此演算法的維護成本比較高，很難隨著業務場景的變化而演進
AIOps 模型的建構一般使用私域數據，往往有數據數量較少、品質較差的問題。這導致了模型的泛化性、遷移能力較差，在不同的業務場景往往需要重新建構

針對以上問題，SLS 現在推出了智慧運維通用模型能力。我們分別開發了用於分析日誌、追蹤資訊和指標資料的基礎模型，並提供了開箱即用的異常檢測演算法、根因分析和自動標記等功能。我們的模型能夠在數千個請求中以秒級的速度定位到根因，並且在生產環境中的準確率超過95%。針對不同的資料類型，我們選擇了不同的任務來進行預訓練