企業第一次部署人工智慧和建構機器學習專案的時候,往往把重點放在理論上。那麼有沒有一種模型,可以提供必要的結果呢?如果有,我們又該如何建構和訓練這種模型呢?
根據IDC的數據顯示,部署人工智慧或機器學習解決方案平均需要長達9個多月的時間。主要是因為資料科學家用來打造這些概念證明的工具,通常無法很好地轉化為生產系統。 IDC分析師SriramSubramanian說:「我們將研發的過程所需的時間稱為‘模型速度’,即從開始到結束需要多長時間。」
企業可以利用MLOps解決上述問題。 MLOps(Machine Learning Operations)是一組最佳實踐、框架和工具,可協助企業管理資料、模型、部署、監控,以及其他利用理論概念驗證AI系統並使其奏效的各個層面。
Subramanian進一步解釋,「MLOps將模型速度縮短到幾週——有時甚至是幾天,就像使用DevOps加快應用程式構建的平均時間一樣,這就是為什麼你需要MLOps。」企業透過採用MLOps可以建立更多模型、更快地創新、應對更多的使用場景。 「MLOps的價值定位很明確。」
根據IDC預測,到2024年將有60%的企業使用MLOps來實施他們的機器學習工作流程。 Subramanian說,當他們對受訪者調查採用人工智慧和機器學習的挑戰時,最主要的障礙之一就是缺少MLOps,僅次於成本。
在本文中,我們研究了MLOps是什麼,如何演變的,以及企業組織需要完成和牢記什麼,才能充分利用這種新興的人工智慧操作方法。
幾年前,當Eugenio Zuccarelli首次開始建立機器學習專案的時候,MLOps還只是一組最佳實踐。從那時起,Zuccarelli一直在多家企業從事人工智慧項目,包括醫療和金融服務領域的企業,他看到,隨著時間的推移MLOps開始發展到包含了各種工具和平台。
如今,MLOps為人工智慧操作提供了一個相當強大的框架,Zuccarelli說,他現在是CVS Health的創新數據科學家,他提到了之前從事的一個項目,該項目旨在創建一個可以預測不良結果的應用,例如再入院或疾病進展。
“我們正在探索數據集和模型,並與醫生進行溝通找出最佳模型所具備的特徵。但要使這些模型真正有用,還需要讓用戶真正地用起這些模型。”
這意味著要打造一個可靠的、快速且穩定的行動應用,後端有一個透過API連接的機器學習系統。他說:「如果沒有MLOps,我們將無法確保這一點。」
他的團隊使用H2O MLOps平台和其他工具為模型創建了健康儀表板。 「你肯定不希望模型發生重大變化,也不想引入偏見。健康儀表板讓我們能夠了解系統是否發生了變化。」
透過使用MLOps平台還可以對生產系統進行更新。他說:「在不停止應用工作的情況下換出檔案是非常困難的。而MLOps可以在生產進行中、以系統影響最小的情況下換出系統。」
他說,MLOps平台隨著逐漸成熟將會加速整個模型開發的過程,因為企業不必為每個專案重新發明框架。數據管道管理功能對於人工智慧的實施也至關重要。
「如果我們有多個需要相互通訊的資料來源,這時候MLOps就可以發揮作用了。你希望流入機器學習模型的所有資料都是一致的且高品質的。就像那句話說的,垃圾進,垃圾出。如果模型的資訊很差,那麼預測本身就會很差。」
#但不要認為,僅僅因為有這麼多可用的平台和工具,就忽略了MLOps的核心原則。剛開始使用MLOps的企業應該記住,MLOps的核心是在資料科學和資料工程之間建立牢固的聯繫。
Zuccarelli說:「為了確保MLOps專案的成功,你需要資料工程師和資料科學家是在同一個團隊內工作的。」
此外,防止偏見、確保透明度、提供可解釋性以及支持道德平台所必需的工具,都還在開發之中,「這方面肯定還需要做很多工作,因為這是一個非常新的領域。」
因此,如果沒有一個完整的交鑰匙型解決方案可供採用,企業必須非常了解如何讓MLOps有效實施人工智慧的各個方面。這意味著,要廣泛地培養專業技能,技術諮詢公司Insight的人工智慧團隊國家實踐經理Meagan Gentry這樣表示。
MLOps涵蓋了從資料收集、驗證和分析、到管理機器資源和追蹤模型效能的整個範疇,有很多輔助工具是可以部署在本地、雲端或邊緣的,這些工具有的是開源的,有的是專屬的。
但掌握技術只是其中一個方面,MLOps也藉鑒了DevOps的敏捷方法和迭代開發的原則,Gentry說。此外,和任何敏捷相關的領域一樣,溝通是至關重要的。
「每個角色的溝通都是很重要的,資料科學家和資料工程師之間的溝通,和DevOps的溝通,以及和整個IT團隊的溝通。」
對於剛起步的公司來說,MLOps可能是令人困惑的,它有許多一般性原則,有數十家相關廠商,甚至還有非常多的開源工具組。
「這時候會遇到各種陷阱,」Capgemini Americas企業架構資深經理Helen Ristov說。 「其中很多都還在開發中,現在還沒有一套正式的指導方針,就像DevOps一樣,這還是一項新興技術,指導方針和相關政策需要一定時間才能推出。」
Ristov建議,企業應該從數據平台開始他們的MLOps之旅。 「也許他們有資料集,但是這些資料集是在不同地方的,沒有一個統一的環境。」
她說,企業不需要將所有資料轉移到一個平台上,但確實需要一種方法從不同的資料來源引入數據,不同的應用,情況也各不相同。例如,資料湖非常適合那些以高頻次進行大量分析、低成本儲存的企業。 MLOps平台通常有用於建立和管理資料管道並追蹤不同版本的訓練資料工具,但這並不是一勞永逸的。然後是模型建立、版本控制、日誌記錄、衡量功能集、管理模型本身等其他方面。
「其中涉及大量的編碼工作,」Ristov說,建立MLOps平台可能需要數月時間,而且在整合方面,平台供應商還有很多的工作要做。
「這些不同方向還有很大的發展空間,很多工具還在開發之中,生態系統非常龐大,人們只是選擇他們所需的東西。MLOps還處於'青春期',大多數企業組織仍在尋找最理想的配置。」
IDC的Subramanian表示,MLOps市場規模預計將從2020年的1.85億美元增長到2025年約7億美元,但這個市場也有可能被嚴重低估了,因為MLOps產品通常與更大的平台捆綁在一起。他說,到2025年MLOps市場的真實規模可能超過20億美元。
Subramanian說,MLOps廠商供應商往往分為三大類,首先是大型雲端供應商,例如AWS、Azure和Google Cloud,這種廠商是把MLOps功能作為一項服務提供給客戶。
第二類是機器學習平台廠商,例如DataRobot、Dataiku、Iguazio等。
「第三類是過去所說的資料管理廠商,例如Cloudera、SAS和DataBricks等等。他們的優勢在於資料管理能力和資料操作,然後擴展到機器學習能力,最終延伸到MLOps能力。」
Subramanian說,這三個領域都呈現出爆炸性成長,能讓MLOps廠商脫穎而出的,是他們能否同時支援本地環境和雲端部署模型,是否能夠實施可信的、負責任的人工智慧,是否即插即用,是否容易擴展,這就是體現差異化的面向。 」
根據IDC最近的一項調查顯示,缺乏實施負責任AI的各種方法,是阻礙人工智慧和機器學習普及的三大障礙之一,與缺乏MLOps一起並列第二。造成這種情況很大程度是因為除了採用MLOps別無他選,Gartner人工智慧和機器學習研究分析師Sumit Agarwal這樣表示。
「其他方法都是手動的,所以,真的沒有其他選擇了。如果你想擴展的話,你需要自動化。你需要程式碼、資料以及模型的可追溯性。 」
根據Gartner最近的一項調查顯示,一個模型從概念驗證到生產所需的平均時間已經從9個月縮短到7.3個月。「但是7.3個月仍然很長,企業組織有很多機會利用MLOps。 」
Genpact公司全球分析負責人Amaresh Tripathy表示,實施MLOps還需要以企業AI團隊的身份掀起一場文化變革。
「資料科學家給人的印象通常是一個瘋狂的科學家,試圖大海撈針。但實際上資料科學家是發現者和探索者,而不是生產小部件的工廠。 「企業經常低估自身所需要付出的努力。
「人們能更好地理解工程,對使用者體驗有這樣或那樣的要求,但不知道為什麼,人們對部署模型卻完全不同。人們會假設所有擅長測試環境的資料科學家自然都會部署這些模型,或者可以派幾個IT員工來部署,這是錯誤的。人們並不了解他們需要什麼。 ”
許多企業也不知道MLOps可能會為企業內部其他方面帶來哪些連鎖反應,因此經常導致企業內部發生巨大的變化。
「你可以把MLOps放在呼叫中心,平均回應時間實際上會增加,因為簡單的事情交給了機器和人工智慧來處理,而交給人類做的事情實際上需要更長的時間,因為這些事情往往更複雜。所以你需要重新考慮這些工作是什麼,你需要什麼樣的人,這些人應該具備什麼樣的技能。」
Tripathy表示,如今,一個企業組織中只有不到5%的決策是由演算法驅動的,但這種情況正在迅速改變。 「我們預計未來五年,將有20%到25%的決策是由演算法驅動的,我們看到的每一個統計數據都表明,我們處於人工智慧快速擴展的拐點上。」
#他認為,MLOps是關鍵的一個部分。如果沒有MLOps,你就無法始終如一地使用人工智慧。 MLOps是企業AI規模化的催化劑。
以上是加速AI開發,企業如何利用MLOps提升生產效率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!