如何讓雲端原生運維化繁為簡

王林
發布: 2023-04-08 20:31:04
轉載
1826 人瀏覽過

雲端運算帶來了集約化、效率、彈性與業務敏捷的同時,也對雲端上運維提出了前所未有的挑戰。如何面對新科技趨勢的挑戰,建構面向雲端時代的智慧監測平台,讓雲端應用程式獲得更好的保障,是如今擺在每個企業面前的一道難題。

在日前的【T·Talk】系列活動第八期中,51CTO內容中心特別邀請到了乘雲產品VP張懷鵬做客直播間,為大家分享打造雲端時代數位化觀測利器的經驗與思考。 【T·Talk】也將本期精彩內容進行了整理,望諸君能夠有所收穫:

#數位轉型浪潮下的數位化營運痛點

數位轉型與數位經濟建設是當前時代的大趨勢,數位轉型可以說是人類歷史上的第四次工業革命。我們日常的辦公方式、支付方式、購物方式,包括出行方式等,無時無刻不受數位化的影響。簡單來說,目前我們已經由傳統的IT時代邁入了數位化DT的時代。

在數位化DT的時代,數位轉型幾乎重新定義了當前企業的業務以及業務體驗的方式。但隨著各產業數位轉型的不斷深入,越來越多的數位化應用事故也開始逐漸顯露。例如年初某省市的健康碼崩潰、核酸檢測系統異常等,都對社會面造成了非常大的影響。

 如何讓雲端原生運維化繁為簡


#根據調查,目前60%的CEO認為數位轉型非常重要,企業也在這部分人群的帶領下大踏步地向數位轉型和人工智慧演進。然而與此形成鮮明對比的是,95%的企業應用並沒有被有效的監控與關注。

目前數位化營運手段,大多都產生於傳統的資料中心時代,大量的工具或技術都沒有考慮到雲端運算的場景。隨著雲端運算的普及,資訊化的場景發生了天翻地覆的變化。應用本身的複雜性呈現爆炸性成長,分散式越來越多,依賴關係也越來越複雜,軟體迭代節奏也越來越快。在這樣的場景下,企業急需建構一個面向DT時代的,基於業務和資料流的一套解決方案。

DT時代產生了太多新的技術、新的場景,例如目前熱度很高的雲端原生,雲端原生的要求加速了傳統運維向應用程式運維的演進。傳統場景存在大量基礎設施,但隨著業務上雲,基礎設施都將託管給營運商或營運商,企業不再需要為傳統的機房管理、弱電管理、硬體的監控、裸金屬的監控、UPS配電及溫濕度煩惱。因此傳統的設備運維也演變成了Site reliability以應用為重心的運維,企業對傳統運維的投入將會變得越來越少。

 如何讓雲端原生運維化繁為簡


#目前來說,我們處在轉型為智慧化運維的階段。現在需要做的是讓數位化維運、IT維運變得更輕、效率更快、成本的支出更少。維運團隊的精力需要集中在企業業務本身,業務才是維運人員所需關注的重點問題。這些都會帶來對智慧運維的需求。


企業通往智慧維運的典型科技路徑

1、什麼是智慧維運

關於智慧運維,Forrester和Gartner曾在報告中進行過定義:AIOps是一套將AI和數據科學應用於業務和維運的數據領域,以建立關聯,並能夠提供即時的規範性和預測性答案的軟體系統。 AIOps可以是一套軟體系統,因此它可以是一個落地的產品。 AIOps能夠增強並部分取代傳統的主要的IT維的功能,包括可用性和效能監控、事件關聯和分析、IT的服務管理和自動化。

AIOps ,面向的是Operations,Operations是需要覆寫觀測、管理與處置三個面向。但目前業界整體水準更多的是聚焦在觀測層面。 Forrester對此也給了一個經典的語句:AIOps承諾了更強的可觀察性和穩定性。

Forrester認為,目前AIOps的一個核心價值,就是將事前能力增強,提升並擴展你的可觀測能力。

2、什麼是可觀測性

觀測性最早誕生於控制理論中,指系統可以由外部輸出,推論其內部狀態的程度。在IT領域中,Gartner將可觀測性定義為軟體與系統的特性。具體指根據系統產生的遙測的資料來判定目前系統的狀態以及系統情況,這種能力便是可觀測能力或稱可觀察能力。

如何讓雲端原生運維化繁為簡


#為什麼需要可觀測性?

傳統的監控的技術和工具很難追蹤當前的越來越多的分散式架構中的通訊路徑和依賴關係,在雲端原生的場景或在雲端的場景,依賴關係非常複雜,不再像傳統很多的單體架構的應用。而可觀察性能夠更好地控制複雜系統,透過可觀察性三大資料支柱能夠非常直觀詳細地了解複雜系統的方方面面。

可觀察性不僅只服務於維運,還能服務於開發部門、SRE部門、Support部門、市場部門與Business部門。因此如果能夠將AIOps和可觀察性融合為一體,打造出來一體化的平台,將會得到非常完美的產品,能夠一舉兩得。

3、企業通往智慧維運AIOps 的兩條典型技術路徑

#企業通往IT智慧維運的兩條典型的技術路徑可以形象的歸納為「外掛AIOps」與「內生AIOps」。外掛AIOps,透過旁路的方式將AIOps的平台植入企業IT維的環境中。 AIOps是一個獨立的演算法平台,透過連結企業異源異質的數據,而後來透過資料工程師梳理資料之間的依賴關係,並藉助大數據處理技術,實現專案製的交付。

 如何讓雲端原生運維化繁為簡


#內生AIOps強調的是一體化的技術路線,經過內生AIOps引擎,能夠實現資料處理全流程的閉環,不需要資料工程師參與。類似快遞的流程,寄件者的物品相當於資料。拿到資料後,由快遞員實施封裝、倉儲、調度、運輸等操作。但最終收件者收到的就是這個物品,中間的所有的處理環節是不需要寄件者和收件者去處理的。內生AIOps強調這項能力,將AI的能力嵌入一體化觀測平台當中。

技術實現上的差異:

外掛AIOps一般使用傳統的機器學習AI,這種技術本質上是一種統計方法,將Metric、log、事件等資訊進行關聯分析,旨在降低警告的噪音。透過機器學習AI,我們能夠獲得一組關聯告警。因此其需要一定的時間週期,一般來說外掛AIOps需要人工或歷史記錄去提出一個推薦性或可能性的根因。

同時,外掛AIOps需要大量外部資料的依賴,外掛AIOps廠商通常只做演算法平台。資料的清洗、CMDB的實體間的依賴關係等等,都需要外部的資料。因此,想要落地外掛AIOps,需要企業的資訊化運作非常成熟,需要有呼叫資料的前提、有APM的產品、且可觀察性得做的相對完善,才能去做外掛的AIOps。

內生AIOps則提供了一個確定性的人工智慧分析,將確定性的分析結果作為目標,也就是在問題發生後,問題發生原因的根因是確定性的,並且是一個接近即時的結果。內生AIOps維繫了一張實時性非常高的矩陣式依賴關係地圖,這項技術不需要去依賴傳統靜態的CMDB,而是這張依賴關係地圖本身就相當於一張實時的CMDB,能夠將依賴關係進行即時的變化,借助內生的關係實現了管理分析。

企業如何決策選擇適合自己的技術路徑?

在AIOps的落地層面,企業需要考慮的問題也比較多。從企業管理者的角度來說,除了成本、團隊等基礎問題外,還需要考慮不同部門之間的平衡,以及成本、穩定性和效率之間的平衡問題。 AIOps的目標,是既要解決問題,還要合理地解決問題。在保證成本的同時,最大化企業業務的穩定性與效率。


如何讓雲端原生運維化繁為簡

在Forrester的一篇報告中提到,企業落地AIOps時有以下幾點關鍵能力需要著重思考:

  • AIOps平台與ITOM工具鍊是否能夠無縫集成,是否能高度實現自動化的能力
  • AIOps平台非常重視原生數據,原生數據包括雲端原生的依賴關係、雲端原生機器數據的資訊
  • 全服務的依賴關係的地圖的自動化和全景的構建
  • AIOps的未來是智能化的觀測感知和自動化的落地實踐
  • 根因分析和事件補救計劃的自動化程度
  • 現代技術營運需要智慧化和自動化

從資料處流程上來看兩種技術路徑的差異:

傳統AIOps平台,也就是外掛AIOps平台在資料處理過程當中會使用到很多工具拼湊組裝,打造一套搖搖晃晃的大數據系統。如果發生工作人員的更換,則很有可能會為新的交接者遺留大量的技術債。

第一步的資料收集環節,需要依賴大量開源與商業工具。第二步將資料注入大數據平台。第三步,人工梳理資料關係以及清洗資料。前三個步驟是非常耗時的。第四步,發現問題、定位問題,這一步AIOps廠商才會參與進來,廠商團隊需要落地到客戶現場駐點按需打造。廠商會詢問需求,並提供相應服務。第五,建置儀表板。第六,系統的擴展,隨著應用系統的規模的擴大,整個系統呈線性成長。


如何讓雲端原生運維化繁為簡


#在整個流程中,資料工程師需要花費將近80%的時間用來做資料的清洗、收集和組織,整個方案需要尖端的維運領域人才,既要是維運專家,還需要懂演算法、懂開發。本身AIOps是一套支撐的系統,是用來解決問題的,但外掛式AIOps很有可能會使維運變得更重,需要一支專門的團隊來維護AIOps平臺本身。

內生AIOps的資料處理流程則非常簡單,一個工具即可解決資料收集。且由其是高度商業化的產品,且具有開箱即用的儀錶板能力,包括引擎等。因此後續的處理流程都是黑盒子的,無需企業過多關心,也不需要業務工程師懂演算法並具備SRE的技術水準。

 如何讓雲端原生運維化繁為簡


#

同時,內生AIOps會隨著企業業務系統的規模的擴展,呈現非線性的成長。包括使用者的團隊以及產品的整個系統,都是呈現非線性成長的。整個方案佈置下來的話,企業只需要要安裝一個Agent,後續很多都是自動化的能力。這使得企業的維運人員能夠將精力聚焦在企業本身的業務。

總結:

業界需要新一代的軟體智慧平台,能夠完全涵蓋整個資料處理流程。將客戶想要的結果直接交付,而不是呈現原始資料。總的來說,在外掛AIOps與內生AIOps兩條技術路徑當中,更推薦企業使用內生的AIOps,其屬於智慧維的新的典範。

#內生AIOps輔助雲端原生運維化繁為簡

內生AIOps平台的目標是建構一個集AIOps和可觀察性於一體的一體化平台。其需要具備觀測能力,且觀測能力要以應用監控為中心,應用監控才是面向最終使用者的現象層。同時,還需整合基礎設施的監控,包括雲端平台的監控以及黑盒的監控。最後還需要具備面向前端的數位體驗的能力。

新的AIOps平台需要打造持續的自動化,從資料的存取到資料結果的輸出實現自動化。需要具備事前能力,擁有預測與預警的能力。

新的AIOps平台需要提供高階的可觀察性,不只是把原始資料、原始零件展示給企業,而是要關注現象、關注體驗,給出準確結果,這樣才能盡可能減少大量噪音對企業帶來的影響與幹擾。

內生AIOps的資料處理模型,有許多差異化的地方,例如在資料收集上面強調一個Agent的能力。在資料處理上面,我們強調指標體系,指標體系的建構和傳統的方式有所不同,我們強調內生AIOps內生於一體化平台。


如何讓雲端原生運維化繁為簡


#NIOps平台主要會從以下五個方面幫助雲端原生運維實現化繁為簡:

  • 內生AIOps平台能夠直接取得優質的觀測資料
  • 能夠打造持續的自動化能力,對於維運來說,工作效率會更高
  • 平台能夠建立一個即時的矩陣式的拓撲,按圖索驥
  • 能夠即時輸出影響面分析
  • 直指根因,見證成果

1、直接取得優質的觀測資料

首先,直接取得優質的監控資料。一句比較經典的總結是“高品質的觀測來自高品質的遙測”,高品質的後端的分析一定要求高品質的前端的遙測資料的產生。可觀察性關註三大支柱,如果要做高階的可觀測性、內生的AIOps分析,需要五大支柱,除了傳統的追蹤數據、指標、日誌數據,還需要非常關鍵的拓樸數據與程式數據,數據的品質能夠直接決定模型的上限。

直接取得優質的監測數據,這些數據一定是實現非侵入式的、自動化的採集,不用修改原始碼、業務與應用,且能夠實現上下文資訊和自動化的結合。上下文資訊能夠輔助實現真正的根因分析,能夠幫助根因分析提取高保真的背景的信息,能夠幫助平台構建實時的服務流程圖和拓撲圖,進行依賴關係。包含矩陣式的關係拓樸的技術,這些情境資訊也是非常關鍵的。

拓樸圖,主要展示整個應用環境的依賴關係,包括垂直的堆疊和水平的堆疊。服務流程圖是從一個服務或請求的維度去提供整個交易的視圖,透過服務流程圖和拓樸圖,可以說明服務之間所呼叫的序列。服務流程圖顯示的是交易的整個分佈的序列,是有序的,而拓撲圖則是更高級的抽象,顯示的是依賴關係等。

 如何讓雲端原生運維化繁為簡


#直接獲得優質的監控關係需要用到商業化的Agent的技術,雖然目前市面上已經有許多開源的工具或免費的工具,但商業化Agent技術有著以下幾個開源工具所沒有的優勢。

  • 所採集的代理探針的穩定性、安全性和可靠性有保障
  • 探針對宿主機、對於核心業務的資源開銷、效能影響有保障
  • 部署和插裝,包括變更,能夠更少地使用手動操作
  • 監測能自動植入到動態的方法或容器類別的這些元件當中
  • 各種指標取樣精細,原生高保真
  • 有足夠的資訊和上下文可供建立一個統一的資料模型

以上優點是很多免費的工具不具備的。內生AIOps平台依賴One Agent技術,Agent擁有邊緣運算的設計,在邊端端點上做了很多資料的聚合、資料的清洗的工作。

2、打造持續自動化

內生AIOps平台的能力,旨在建立持續的自動化。監控複雜的雲端原生環境,一定離不開自動化。包括自動化的部署、自動化的適配、自動化的發現、監控、注入、清洗等一系列自動化。在複雜的雲端原生環境當中,憑人力是難以了解這些端到端的業務的,所以需要用高度的自動化能力來作為輔助工具,去輔助自動運維。

3、建構即時矩陣式關係地圖

內生AIOps平台能夠建構即時矩陣式的拓樸。能夠按圖索驥,看到圖面當中水平方向,例如服務層的依賴關係圖,還有容器層、主機層、進程級等。垂直向則是服務是跑在什麼容器上,這個容器對應的是哪一個進程,這個進程是落在哪一個雲端主機上面。

4、即時輸出影響面分析

輸出影響面分析則相當於網路安全的思維,在維運當中也是一樣。系統出現了故障或異常,其影響面有哪些,會影響哪些使用者、會影響哪些服務、影響哪些應用,其根本原因為何。透過自動化的手段和技術,把結果輸出給用戶,並不需要維運人員人工分析。


如何讓雲端原生運維化繁為簡


#5、直指根因,見證成果

最後,自動化維運非常重要的能力,就是直指根因,見證成果。傳統的技術需要基於知識庫、基於CMDB、基於因果推論不同的方法,而AIOps則提供內生型根因定位。其能夠打通資料依賴關係,除了物件間的依賴關係,還可以打通不同資料型別間的依賴關係,例如呼叫鏈、日誌、指標間的依賴關係。其提供的是一個即時的根因定位,具有高度的適應性,在低開銷的同時,準確率非常高。而且具備無監督的技術,不需要過多的人工輔助去實現這些能力的交付。

 

總結    

企業若想數位轉型成功,需要做到所有的應用、數位化服務以及支撐其運作的動態多重雲平台都能完美地工作,而且要每時每刻做到這一點。

這些高度動態化、分散式的雲端原生技術,與傳統的場景截然不同。這導致由微服務、容器及軟體定義雲端基礎架構所帶來的複雜性在目前一發不可收拾。這些複雜性超越了團隊管理能力的極限,而且還在不斷擴大中。要隨時了解在這些瞬息萬變的環境中所發生的一切,就必須提升可觀測與智慧維運能力。

我們需要藉助高度的自動化與智慧化技術,讓雲端原生維運變得更輕、效率更快、成本的支出更少,讓企業團隊的精力需要集中在企業業務本身,真正的邁向智慧化維運時代。

來賓介紹

張懷鵬,乘雲產品VP。 2017年加入杭州乘雲數位技術有限公司,負責【DataBuff 一體化觀測與智慧運維】產品線日常管理,擔任IPD整合產品開發團隊經理,參與市場管理、需求分析、團隊協同、流程結構化、質量控制等工作。

以上是如何讓雲端原生運維化繁為簡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板