在 KubeCon EU 2024 期間,CNCF 發布了第一份雲原生 AI 白皮書。本文對本白皮書的內容進行了深入分析。
2024 年 3 月,在 KubeCon EU 期間,雲原生運算基金會 (CNCF) 發布了第一份關於雲原生人工智慧 (CNAI) 的詳細白皮書1。本報告廣泛探討了雲端原生技術與人工智慧整合的現狀、挑戰和未來發展方向。本文將深入探討本白皮書的核心內容。
本文首發於Medium MPP計畫。如果您是Medium用戶,請在Medium上關注我。非常感謝。
什麼是雲端原生人工智慧?
雲端原生人工智慧是指使用雲端原生技術原理建置和部署人工智慧應用程式和工作負載。這包括利用微服務、容器化、聲明式 API 以及持續整合/持續部署 (CI/CD) 等雲端原生技術來增強 AI 應用程式的可擴展性、可重複使用性和可操作性。
下圖是根據白皮書重新繪製的雲原生AI架構圖。
雲端原生AI與雲端原生技術的關係
雲端原生技術提供了一個靈活、可擴展的平台,使人工智慧應用的開發和營運更加高效。透過容器化和微服務架構,開發者可以快速迭代和部署AI模型,同時確保系統的高可用性和可擴展性。 Kuuch 作為資源調度、自動擴展和服務發現。
白皮書提供了兩個例子來說明雲端原生AI與雲端原生技術之間的關係,即在雲端原生基礎設施上運行AI:
- Hugging Face 與 Microsoft 合作在 Azure 上推出 Hugging Face 模式目錄2
- OpenAI 將 Kubernetes 擴展到 7,500 個節點3
雲端原生人工智慧的挑戰
儘管為人工智慧應用提供了堅實的基礎,但將人工智慧工作負載與雲端原生平台整合時仍然面臨挑戰。這些挑戰包括資料準備複雜性、模型訓練資源需求以及在多租戶環境中維護模型安全性和隔離性。此外,雲端原生環境中的資源管理和調度對於大規模人工智慧應用至關重要,需要進一步優化以支援高效的模型訓練和推理。
雲原生AI發展路徑
白皮書提出了雲原生AI的幾條發展路徑,包括改進資源調度演算法以更好地支援AI工作負載、開發新的服務網格技術以增強AI應用的性能和安全性以及推動雲原生的創新和標準化透過開源專案和社群協作實現人工智慧技術。
雲端原生AI技術格局
雲端原生人工智慧涉及各種技術,從容器和微服務到服務網格和無伺服器運算。 Kubernetes 在部署和管理 AI 應用程式中發揮核心作用,而 Istio 和 Envoy 等服務網格技術則提供強大的流量管理和安全功能。此外,Prometheus 和 Grafana 等監控工具對於維持 AI 應用程式的效能和可靠性至關重要。
以下是白皮書中提供的雲原生AI景觀圖。
- Kubernetes
- 火山
- 無敵艦隊
- 庫伯雷
- Nvidia NeMo
- Yunikorn
- 庫埃
- 火焰
分散式訓練
- Kubeflow 訓練算子
- Pytorch DDP
- TensorFlow 分散式
- 開啟 MPI
- 深速
- 威震天
- 霍羅沃德
- 阿普拉
- …
機器學習服務
- Kserve
- 謝頓
- VLLM
- TGT
- 天空飛行員
- …
CI/CD — 交付
- Kubeflow 管道
- MLflow
- TFX
- BentoML
- MLRun
- …
數據科學
- Jupyter
- Kubeflow 筆記本
- PyTorch
- TensorFlow
- 阿帕契齊柏林飛艇
工作負載可觀察性
- 普羅米修斯
- Influxdb
- 格拉法納
- 權重與偏差 (wandb)
- 開放式遙測
- …
自動機器學習
- Hyperopt
- 奧圖納
- Kubeflow Katib
- NNI
- …
治理與政策
- 基維爾諾
- Kyverno-JSON
- OPA/網守
- StackRox 管理器
- …
資料架構
- ClickHouse
- 阿帕契皮諾
- 阿帕契德魯伊
- 卡桑德拉
- ScyllaDB
- Hadoop HDFS
- Apache HBase
- 急速
- 三諾
- 阿帕契火花
- Apache Flink
- 卡夫卡
- 脈衝星
- 液體
- Memcached
- Redis
- Alluxio
- 阿帕契超級集
- …
向量資料庫
- 色度
- Weaviate
- 象限
- 松果
- 擴充
- Redis
- Postgres SQL
- ElasticSearch
- …
模型/法學碩士可觀察性
- • 特魯倫斯
- 朗芙絲
- 深度檢查
- OpenLLMetry
- …
結論
最後總結以下要點:
-
開源社群的角色:白皮書指出了開源社群在推動雲端原生人工智慧方面的作用,包括透過開源專案和廣泛合作加速創新和降低成本。
-
雲端原生技術的重要性:雲原生AI,根據雲原生原則構建,強調可重複性和可擴展性的重要性。雲端原生技術為AI應用提供了高效的開發和運行環境,特別是在資源調度和服務擴展方面。
-
現有挑戰:儘管雲端原生AI帶來了諸多優勢,但在資料準備、模型訓練資源需求、模型安全與隔離等方面仍面臨挑戰。
-
未來發展方向:白皮書提出了發展路徑,包括優化資源調度演算法以支援AI工作負載、開發新的服務網格技術以增強效能和安全性、透過開源專案和社群協作推動技術創新和標準化.
-
關鍵技術元件:雲端原生AI涉及的關鍵技術包括容器、微服務、服務網格、無伺服器運算等。 Kubernetes 在部署和管理 AI 應用程式中發揮核心作用,而 Istio 和 Envoy 等服務網格技術則提供必要的流量管理和安全性。
更多詳情請下載雲原生AI白皮書4.
參考連結
白皮書:↩︎
Hugging Face 與 Microsoft 合作在 Azure 上推出 Hugging Face 模型目錄 ↩︎
OpenAI 將 Kubernetes 擴展到 7,500 個節點:↩︎
雲原生 AI 白皮書:↩︎
以上是深入探討 CNCF 的雲原生 AI 白皮書的詳細內容。更多資訊請關注PHP中文網其他相關文章!