在 KubeCon EU 2024 期间,CNCF 发布了第一份云原生 AI 白皮书。本文对本白皮书的内容进行了深入分析。
2024 年 3 月,在 KubeCon EU 期间,云原生计算基金会 (CNCF) 发布了第一份关于云原生人工智能 (CNAI) 的详细白皮书1。本报告广泛探讨了云原生技术与人工智能集成的现状、挑战和未来发展方向。本文将深入探讨本白皮书的核心内容。
本文首发于Medium MPP计划。如果您是Medium用户,请在Medium上关注我。非常感谢。
什么是云原生人工智能?
云原生人工智能是指使用云原生技术原理构建和部署人工智能应用程序和工作负载。这包括利用微服务、容器化、声明式 API 以及持续集成/持续部署 (CI/CD) 等云原生技术来增强 AI 应用程序的可扩展性、可重用性和可操作性。
下图是根据白皮书重新绘制的云原生AI架构图。
云原生AI与云原生技术的关系
云原生技术提供了灵活、可扩展的平台,使人工智能应用的开发和运营更加高效。通过容器化和微服务架构,开发者可以快速迭代和部署AI模型,同时保证系统的高可用性和可扩展性。 Kuuch 作为资源调度、自动扩展和服务发现。
白皮书提供了两个例子来说明云原生AI与云原生技术之间的关系,即在云原生基础设施上运行AI:
- Hugging Face 与 Microsoft 合作在 Azure 上推出 Hugging Face 模型目录2
- OpenAI 将 Kubernetes 扩展到 7,500 个节点3
云原生人工智能的挑战
尽管为人工智能应用程序提供了坚实的基础,但将人工智能工作负载与云原生平台集成时仍然面临挑战。这些挑战包括数据准备复杂性、模型训练资源要求以及在多租户环境中维护模型安全性和隔离性。此外,云原生环境中的资源管理和调度对于大规模人工智能应用至关重要,需要进一步优化以支持高效的模型训练和推理。
云原生AI发展路径
白皮书提出了云原生AI的几条发展路径,包括改进资源调度算法以更好地支持AI工作负载、开发新的服务网格技术以增强AI应用的性能和安全性以及推动云原生的创新和标准化通过开源项目和社区协作实现人工智能技术。
云原生AI技术格局
云原生人工智能涉及各种技术,从容器和微服务到服务网格和无服务器计算。 Kubernetes 在部署和管理 AI 应用程序中发挥着核心作用,而 Istio 和 Envoy 等服务网格技术则提供强大的流量管理和安全功能。此外,Prometheus 和 Grafana 等监控工具对于维持 AI 应用程序的性能和可靠性至关重要。
下面是白皮书中提供的云原生AI景观图。
- Kubernetes
- 火山
- 无敌舰队
- 库伯雷
- Nvidia NeMo
- Yunikorn
- 库埃
- 火焰
分布式训练
- Kubeflow 训练算子
- Pytorch DDP
- TensorFlow 分布式
- 打开 MPI
- 深速
- 威震天
- 霍罗沃德
- 阿普拉
- …
机器学习服务
- Kserve
- 谢顿
- VLLM
- TGT
- 天空飞行员
- …
CI/CD — 交付
- Kubeflow 管道
- MLflow
- TFX
- BentoML
- MLRun
- …
数据科学
- Jupyter
- Kubeflow 笔记本
- PyTorch
- TensorFlow
- 阿帕奇齐柏林飞艇
工作负载可观察性
- 普罗米修斯
- Influxdb
- 格拉法纳
- 权重和偏差 (wandb)
- 开放遥测
- …
自动机器学习
- Hyperopt
- 奥图纳
- Kubeflow Katib
- NNI
- …
治理与政策
- 基维尔诺
- Kyverno-JSON
- OPA/网守
- StackRox 管理器
- …
数据架构
- ClickHouse
- 阿帕奇皮诺
- 阿帕奇德鲁伊
- 卡桑德拉
- ScyllaDB
- Hadoop HDFS
- Apache HBase
- 急速
- 三诺
- 阿帕奇火花
- Apache Flink
- 卡夫卡
- 脉冲星
- 液体
- Memcached
- Redis
- Alluxio
- 阿帕奇超级集
- …
矢量数据库
- 色度
- Weaviate
- 象限
- 松果
- 扩展
- Redis
- Postgres SQL
- ElasticSearch
- …
模型/法学硕士可观察性
- • 特鲁伦斯
- 朗芙丝
- 深度检查
- OpenLLMetry
- …
结论
最后总结以下要点:
-
开源社区的作用:白皮书指出了开源社区在推进云原生人工智能方面的作用,包括通过开源项目和广泛合作加速创新和降低成本。
-
云原生技术的重要性:云原生AI,根据云原生原则构建,强调可重复性和可扩展性的重要性。云原生技术为AI应用提供了高效的开发和运行环境,特别是在资源调度和服务扩展方面。
-
现有挑战:尽管云原生AI带来了诸多优势,但在数据准备、模型训练资源需求、模型安全与隔离等方面仍面临挑战。
-
未来发展方向:白皮书提出了发展路径,包括优化资源调度算法以支持AI工作负载、开发新的服务网格技术以增强性能和安全性、通过开源项目和社区协作推动技术创新和标准化.
-
关键技术组件:云原生AI涉及的关键技术包括容器、微服务、服务网格、无服务器计算等。 Kubernetes 在部署和管理 AI 应用程序中发挥着核心作用,而 Istio 和 Envoy 等服务网格技术则提供必要的流量管理和安全性。
更多详情请下载云原生AI白皮书4.
参考链接
白皮书:↩︎
Hugging Face 与 Microsoft 合作在 Azure 上推出 Hugging Face 模型目录 ↩︎
OpenAI 将 Kubernetes 扩展到 7,500 个节点:↩︎
云原生 AI 白皮书:↩︎
以上是深入探讨 CNCF 的云原生 AI 白皮书的详细内容。更多信息请关注PHP中文网其他相关文章!