着眼于数据中心的技术发展和演进,DPU 作为通用的数据处理器,它不是对 NIC/SmartNIC 的简单替代,而是对网络基础架构的本质改变。DPU 本身所具有的通用层级化可编程性、低时延网络、统一管控的特性使得 DPU 正在促进新一代数据中心从架构上实现优化和重构。DPU 作为通用数据处理的基础部件,将卸载原本运行在CPU、GPU中的通用数据处理任务,释放CPU、GPU 的算力,支撑 CPU、GPU 发挥更大的效能。
“云计算通用可编程DPU发展白皮书(2023年)”白皮书通过阐明和分析 DPU 发展的过程与现状,指出哪些 DPU 特性是解决上述核心问题的关键点,从而推动 DPU 技术的深入发展,助力实现完整的生态链建设和产业落地。
关于DPU技术应用及技术原理,请参看文章“DPU技术原理、算力效率及应用场景解析”和“主流DPU架构实现及技术对比”、“DPU性能基准:测评框架与测试流程介绍(2022)”以及“DPU全球格局,国内5家崛起(2023)”。
重点分析了DPU需具备的通用可编程特性和各种应用场景,同时分析了传统DPU的局限性。近些年,由于业界没有优异和成熟的商用DPU SoC (System on a chip)方案,各大云厂商只能各自研发基于CPU+FPGA的DPU方案,导致DPU被误解为是个碎片化的市场,DPU对云计算的作用及潜力没有被业界正确认识。
在“十四五”规划明确指出加快推进新型基础设施建设后,东数西算工程和运营商算力网络建设如约而至。数字经济的背后,云计算是最核心的算力底座。在云计算里面,DPU已成为基础设施最核心的部件之一。
数字经济时代,云计算不断进入各行各业。中国移动作为云计算“国家队”,正在加大投入,全力支持政府与国有企业数字化转型,降本增效,并为国有数据安全保驾护航。在该白皮书中,云豹智能作为中国移动唯一邀约参编企业,是国内DPU芯片头部企业,也是国内已知真正能做到高性能通用可编程DPU SoC的芯片公司。该白皮书的联合发布,代表着中国移动和云豹智能在DPU领域的深度合作,强强联手,为国家云基础架构及DPU的发展贡献力量。
传统数据中心随着网络带宽逐步从25Gbps向100Gbps、200Gbps、400Gbps乃至更高的带宽演进,网络数据处理占用的CPU算力资源也在不断地增大,甚至会有一半以上会消耗在这些基础设施的功能上,因此迫切需要一种新型处理器来减少对云主机CPU的消耗。DPU是以数据处理为中心,提供数据中心基础设施服务的通用处理器,是继CPU、GPU之后的“第三颗主力芯片”,可以卸载及加速网络和存储,同时具备安全和管控等基础功能,释放更多的算力资源供客户使用。在云计算与数据中心场景下,如果需要进一步提升算力与发挥基础设施效能,譬如动态和弹性地调度算力、网络和存储资源,那么DPU是必须的,且是不可替代的。
目前,国内云厂商大部分还是基于CPU+FPGA的DPU解决方案,这些方案在研发投入上拥有一定的时间优势,但因其功耗过高及性能受到限制,并未达到新一代云计算的要求。另外,由于FPGA基本被国外两大芯片巨头垄断,其高昂的价格也直接导致了产品成本居高不下,影响市场竞争力。
DPU SoC的产品是前者迭代的终极形态,需具备超高的异构芯片技术,通用可编程等特性,连同先进的芯片工艺,才能够满足更复杂、更广泛、更高性能的应用需求。目前,国外芯片巨头和头部云服务商都选择了通用DPU SoC的产品路线,因为相对于CPU+FPGA的方案,DPU SoC 有4到8倍性价比的提升。
各云厂商都在寻找最佳方案来提升各自的利润和竞争力,因为了解到CPU+FPGA并不是一个长远能满足新一代云计算的方案,所以都在期待一款有竞争力、易用及高性价比的DPU SoC出现。
美国的亚马逊云(AWS)不仅占据全球云计算市场最高份额,而且多年前已最先实现了DPU SoC(AWS称之为Nitro)商业化的成功部署。AWS在使用自研的DPU SoC后,每年售卖每台服务器的算力资源可以多获得几千美元的收益。AWS拥有几百万台服务器的体量,因此DPU带来AWS的收益是巨大的。DPU在AWS中的成功应用,受到业内广泛关注,并吸引了越来越多的芯片巨头涌入DPU赛道。Nvidia于2020年以69亿美元成功收购了业内知名网络芯片和设备公司Mellanox,通过融合Mellanox的网络技术,快速面向全球数据中心市场推出BlueField系列的DPU SoC。AMD于2022年以19亿美元收购了DPU SoC厂商Pensando。而国内的云厂商也正在寻求从FPGA架构到通用可编程DPU SoC演变的技术方案。
正是在这样的背景下,中国移动联合信通院和云豹智能发布了《云计算通用可编程DPU发展白皮书(2023年)》。深度解析了DPU的发展趋势:通用可编程、低时延网络、统一资源管理。同时介绍了通用可编程DPU SoC在数据中心、运营商、异构计算等多种不同的应用场景。
国内的数据中心建设中,服务器正在从25G向100G及更高带宽发展,并且应用部署的复杂度持续增高,不但要支持虚拟机、容器的应用管理部署,也需要支持裸金属应用。DPU作为数据中心的核心基础设施部件,要具备灵活的编程能力、数据的高吞吐能力和统一管控的能力,才能满足当前各种云计算业务和数据中心发展的需求。
根据半导体行业观察的了解,目前云豹智能是国内已知真正能做到自研高性能DPU SoC的芯片公司,其产品也将是国内第一款通用可编程DPU SoC芯片。不仅提供高达400G的数据吞吐能力,还搭载性能强劲的CPU处理单元并配合多种可编程的数据处理引擎实现层级化可编程能力。根据该白皮书的描述,云豹智能在DPU的多个关键领域掌握并引领着多项核心技术:
云豹智能DPU SoC支持裸金属、虚拟机和容器统一运维和管控,提供弹性网络和存储、虚拟化管理和安全等一站式解决方案,极大地提升云服务商的服务质量和业务灵活性,降低整体投入,引领数据中心向算网融合持续演进。
中国移动作为支持国家数字经济的主要云服务商,在这白皮书给出了明确的答案,DPU SoC是云计算的关键部件,通用可编程的DPU SoC可以实现对数据中心的算力、网络和存储资源的经济高效卸载和管理。也明确分析了DPU SoC需具备的关键特性:层级化可编程性、低时延网络,统一管控以及适应持续发展的加速卸载,是云厂商推动数据中心向高效率、高扩展、高带宽、高灵活性发展的重要技术支撑。同时,也是各云厂商正在积极研究及探寻的DPU技术的发展方向。
以上是云计算通用可编程DPU发展的详细内容。更多信息请关注PHP中文网其他相关文章!