首页 科技周边 人工智能 详解青云科技推出AI算力产品与服务应对算力挑战

详解青云科技推出AI算力产品与服务应对算力挑战

Oct 16, 2023 pm 08:37 PM
ai算力 算力挑战 青云科技

在青云科技AI算力发布会上,苗慧产品经理详细介绍了青云AI算力调度平台和青云AI算力云服务。以下是演讲全文整理:

人工智能用户面临着算力挑战

随着人工智能行业的爆发,AIGC、大模型、科研计算、企业级大数据及人工智能对算力中心提出了更高的需求。尤其是面对单一算力的数据中心,已经难以满足各行各业日益增长的算力需求,因此需要更多的智算中心、超算中心和通用云计算服务,为全社会提供算力服务。

然而 AI 行业、 AI 基础设施和 AI 算力的用户也面临一系列挑战:

多元资源统一管理瓶颈。面对用户多算力、多存储、整个计算网络以及就近服务的要求,青云提供多元的资源管理统一服务调度平台,来解决多元资源管理混乱的情况。

高速网络瓶颈。在 AI 高速网络建设方面,青云将计算和存储设备使用高速网络进行互联,使用通用网络进行应用服务发布,即通过青云的平台解决多区域高速组网问题。

环境搭建繁琐瓶颈。算法工程师、研发工程师在硬件服务器、对存储服务器等基础环境搭建上可能浪费大量时间,通过青云 AI 智算服务、训练平台和推理模型平台,将环境搭建简洁化,可实现一键部署。

多业务整合瓶颈。青云将多业务整合起来,结合传统云计算、超级计算和智算,面向更多业务为更多客户提供全景的算力服务。

缺乏运营服务。青云同时对算力运营中心、算力管理部门提供全面的运营和运维管理服务。

青云 AI 算力调度平台

青云 AI 调度产品的全栈产品架构是多 AZ、多 Zone 的,即多区域的产品都能统一融合起来,以一个 Global 的服务面向全社会提供算力服务。具体来说会通过纳管底层基础设施,通过数据逻辑层将基础设施逻辑化、业务化,通过具体的产品或服务,包括 GPU 主机、裸金属、虚拟化、共享形式等,形成 AI 算力集群、容器推理服务以及模型市场等相关业务,为全行业的客户提供算力调度与应用场景落地能力。

详解青云科技推出AI算力产品与服务应对算力挑战

四面俱到 算力建设中心新模式

详解青云科技推出AI算力产品与服务应对算力挑战

总体而言,青云科技提供的 AI 算力调度平台能力主要基于以下四方面:

第一,全平台适配市面上所有的计算芯片(包括新产出的信创芯片),以及 GPU 相关显卡和网卡。

第二,对以上适配资源进行统一管理、分发、监控和调度,从用户申请到使用后释放提供全生命周期在线管理功能。

第三,面向管理端和用户端,青云统一纳管平台让用户和管理员能完整操作 AI 基础设施和 AI 算力云服务。

面向智算领域,青云将更多的业务进行业务化和场景化,比如大语言模型训练与推理、基于文本式生成的负载均衡服务,青云也能通过 AI 算力调度平台,为客户提供一键部署、一键扩容和一键负载均衡等便捷操作。在负载均衡方面,尤其在网络、公网和计算基础设施,能达到秒级交付、秒级扩容。

最后,基于以上三种能力,青云能支撑包括高性能计算、人工智能计算和通用计算模式等各行各业的计算,为客户打造一个自主创新、功能完善等统一的用户管理、分发与运营平台。

九大能力 解锁 AI 算力自由

通过多年行业积累,青云 AI 算力调度平台形成九大关键能力:

详解青云科技推出AI算力产品与服务应对算力挑战

1、多区域多业务资源整合能力

尤其面向川西或者西北地区的算力服务多元化,为东部地区、科研单位、高校提供算力服务时,青云可将多区资源统一纳管,通过跟电信运营商合作建设有效的高速网络。

2、分布式调度与管理能力

详解青云科技推出AI算力产品与服务应对算力挑战

根据就近使用原则青云在不同的区域、算力中心、数据中心将所有的基础设施(包括计算资源、存储资源)进行管理分配,配置调度优先级,包括亲和性和非亲和性。在 VM、宿主机及裸金属服务器(包括容器基于 Container 和 Pod 的形式)都可以在青云 AI 算力调度平台的管理端进行亲和性和非亲和性的数据配置,保证数据调度的优先级,目的是为了保证用户在最终使用数据、申请计算资源、业务训练、业务推理中得到一致性体验。

3、资源调度能力

在资源调度能力上,青云有以下六大优点:

详解青云科技推出AI算力产品与服务应对算力挑战

1)立即调度、扩容数万卡的资源

主要面向 AI 计算场景,尤其是大模型推理,部分模型场景需要一年几次推理,这需要瞬间构建出几十张卡甚至几万张卡的训练平台。根据这个诉求可以在青云 AI 算力调度平台上进行内置、适配和资源管理,保证算力集群可以立即支持万张卡的资源,使用完成后也能立即释放。在资源环境和配置方面,青云 AI 算力调度平台都做了大量自动化,保证万卡资源能统一调度。

2)通信链路最短优先调度

让数据不绕路,这也是青云 AI 算力调度平台主要的目的。在 AI 训练、AI 推理的场景下,节点和节点之间、节点和存储之间会有大量的数据交互,在这种情况下青云对交换机同时进行一些配置,保证计算和存储资源能在一个交换机下,或者一个机房内、一个机柜内进行优先调度,让数据不绕路,减少 AI 训练过程中网络传输困难的制约。

3)支持异构平台

用户在建设集群时可以选择不同的业务跑到不同的卡上,青云科技同时对芯片也进行了国产适配与国产替代。4)提升调度系统颗粒度

一是基于 Slurm 的调度系统,二是基于 K8s 的调度系统。在调度系统颗粒度方面,用户能感知到真正作业级别的精度,在每一个训练的任务跑到每一张卡上的每一个进程上,都可以通过大规模的数据监控、业务调度等形式,监控到作业异常情况,保证用户能及时处理训练任务的异常情况,实现资源调度的最大化,在此层面上减少浪费,错了马上修改再立即运行。

5)管理端实现调度优先配置

因为不同的算力中心会运营不同的算力服务,尤其是多数据中心的情况下,用户可通过青云 AI 算力调度平台进行调度的优先配置,前期全部内置化,后期用户还可以进行预留、暂停、恢复、优先级设置、排队等设置,提高优先级。在管理层面上青云可以面向特殊申请的用户或者优先级高的用户,进行资源优先分配。

6)面向智算行业灵活调度配置资源

青云能动态灵活地进行资源调度和可配置,解决 AI 系统中具有挑战性的优先事项。这也是青云不断发现 AI 调度算力或者 AI 场景下的新问题,不断用平台解决新问题,用新产品解决行业的一些主要问题。

4、高速并行存储能力

青云的计算和存储产品是多元和多样的,提供以下三种存储:

详解青云科技推出AI算力产品与服务应对算力挑战

1)青云 U10000 对象存储

存储模型、代码和常用的数据调用,主要面向于大规模数据备份、数据读方面的一些操作。

2)并行文件存储 EPFS

在数据大规模并行写的方面,青云提供了并行文件存储 EPFS,主要针对于 MPI 级别的数据的写操作,提供全闪并行文件存储。

3)文件存储 NAS

可以放一些通用的文档、文本等,青云所有的存储产品都能跟自身计算产品进行内部互联,在内部高速网络上进行数据传输、分发、备份等。

5、混合组网能力

面向不同的计算场景可以提供不同的高速网络,比如计算 IB 网和存储 IB 网,它们之间如何进行最优配置?

青云将高配置的计算产品和高配置的存储产品进行互联互通,将中配置、低配置的进行互联互通,用于训练场景、推理场景和通用应用服务场景。

详解青云科技推出AI算力产品与服务应对算力挑战

6、算法开发支持能力

面向算法开发人员,青云提供更全面的云服务产品,尤其是在算法开发阶段需要大量调参、大规模编写代码,在训练和部署时由于云上和云下的操作,可能会带来大规模的数据上传、下载或者代码拷贝,不太适合在线编辑、立即运行。

详解青云科技推出AI算力产品与服务应对算力挑战

因此青云在算法开发方面提供算法开发的平台,能基于云服务启动在线开发环境,完整地构建 Python 工程、VC 工程,在线使用工程文件和工程环境,进行代码的研发。

在研发过程中,如果有需要调试的也可以立即扩容;如果需要训练可以将作业任务立即分配到训练集群上;如果需要推理,就放到推理集群上。

同时,算法开发过程中,可能会有一些联合开发或者混合开发的形式,青云也提供代码仓库和镜像仓库进行模型管理,不同的人员采用不同的权限进来进行统一的算法开发和服务合并。

一言以概之,青云面向算法开发人员主要提供全开发场景的计算产品和调度产品,保证整个算法开发业务在云上能有效运营起来,减少大规模上传、下载操作。

7、AI 训练平台

如果算法开发在接近尾声或者需要调试的情况下,需要启动大量的算力基础设施进行开发训练,基于基础设施青云提供 AI 训练平台可为用户赋能。

详解青云科技推出AI算力产品与服务应对算力挑战

当 GPU 资源、存储资源和网络资源建设好后,用户可通过云平台进行自主构建,实现一键运行。青云 AI 训练平台主要基于自身 GPU 资源,在线构建集群,构建完成后会默认挂载某一个存储,用户可以自行选择。

在青云 AI 训练平台上同时会内置在线开发环境,在开发环境下还会内置一些常用的训练框架,通过集群统一向用户提供全场景和全应用环境,让用户可以多机在线进行分布式训练。

8、容器推理服务平台在大模型训练几乎结束后,面向公众提供推理服务时,青云容器推理服务平台就能发挥作用。

详解青云科技推出AI算力产品与服务应对算力挑战

通过青云容器推理服务平台,用户布署推理服务后,再用配置好的负载均衡和自动伸缩,保证用户访问量能立即得到调用。同时青云面向客户提供在线的监控服务,如果推理服务出现问题,用户可以立即监控到容器推理出了什么问题,青云可以在线解决。面向并发性操作和大规模调用操作上,青云还可以进行负载均衡和自动伸缩,极大减少人工配置操作。

9、模型仓库(MaaS)

青云模型仓库(MaaS)主要面向 AI 算力服务客户及通用计算客户,模型服务商可以根据自己模型的需求在应用市场、模型市场进行产品上架,方便各企业的客户能一键调用、一键微调、一键部署使用。

详解青云科技推出AI算力产品与服务应对算力挑战

三:激发多元价值 加速场景落地

总的来说,青云 AI 算力调度平台目的是像管理本地资源一样,管理 AI 基础设施,主要体现在五大方面:

详解青云科技推出AI算力产品与服务应对算力挑战

1、提供多元算力统一调度

面对 GPU 资源、CPU 资源、国产芯片、应用框架、应用程序以及用户的业务场景,青云都统一使用一个平台进行调度和管理,也包括存储设施和网络设施。

2、基于基础设施实现智能化算力调度

针对算力调度优先级、亲和性,基于 VM、宿主机和容器,用户都能通过青云的平台实现智能化算力调度和配置,以及管理服务。

3、对国产芯片快速有效适配青云对国产芯片能进行有效适配、快速适配,保证国产化的算法服务、国产化的代码能在国产芯片上立即运行起来。

4、可视化服务

面向管理端的智能运维方面,青云的监控、告警服务等都通过一个大的运营和运维平台为客户和管理员提供可视化操作。

5、丰富的应用市场

青云科技积极建设生态,打造丰富的应用市场,让各行各业的应用和各行各业的客户,都能在青云 AI 算力平台上得到想要的计算资源和业务资源。

详解青云科技推出AI算力产品与服务应对算力挑战

目前青云 AI 算力调度平台已在济南超算应用落地,山河云已经上线提供运营服务。青云基于济南超算上万台的硬件基础设施,多种计算网络、服务器等,进行上架、管理、调度服务,对不同机房以及超算业务、智算业务、GPU,以及基于各种存储和网络信息,进行统一纳管整合、管理和分发,为各行各业的客户提供算力调度的产品和算力云服务产品。

青云 AI 算力云服务

青云 AI 算力云服务产品也在青云公有云上进行上架提供服务,主要面向大模型训练场景。

详解青云科技推出AI算力产品与服务应对算力挑战

在面向比较高优先级和高配置的卡上,青云来提供公有云的算力服务产品,在 AI 场景下青云将底层资源构建分布式 GPU 算力集群,绑定公网环境,让用户进行访问。

用户可以基于此将数据上传到并行文件存储上,也可以将并行文件存储和 GPU 算力集群,通过私有网络保证数据安全和保证云服务的安全性,统一纳管到同一个网络里。还可以通过在线训练、远程SSH访问分布式算力集群和并行文件存储,将业务运行起来。

详解青云科技推出AI算力产品与服务应对算力挑战

在业务上,用户可以使用 AI 算力集群、容器推理服务,其基础设施都是 A800 资源、裸金属服务器、虚拟化服务器。所有青云 AI 算力云服务产品下都采用高速互联的网络,采用针对 AI 算力行业所需要的在线环境、开发环境、训练和推理环境等,欢迎大家申请注册和试用。

以上是详解青云科技推出AI算力产品与服务应对算力挑战的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

AI算力需求突飞猛进,推动光模块产品迭代更新,1.6T宽带需求或将蓬勃发展 AI算力需求突飞猛进,推动光模块产品迭代更新,1.6T宽带需求或将蓬勃发展 Aug 16, 2023 pm 06:13 PM

随着人工智能需求的激增,光模块产品将不断更新,以适应高速率和新技术的发展趋势中际旭创(300308.SZ),作为光模块行业的领导企业,近日宣布其重要的AI客户已提出了对1.6T光模块的需求,以满足未来更高带宽和算力的GPU需求。预计该公司将在2025年实现1.6T光模块的大规模生产AI算力需求爆发,推动光模块产业发展随着人工智能、大数据、云计算、5G和物联网等行业的兴起,光模块作为光纤通信系统中的核心器件之一,其在实现光电信号转化方面的功能需求也在迅速增长随着电信市场和数据中心的不断扩张,光通信

打造以AI为导向的基础设施,联想锚定AI算力'主航道” 打造以AI为导向的基础设施,联想锚定AI算力'主航道” Aug 24, 2023 am 09:05 AM

毫无疑问,人工智能对人类社会来说并不是一项简单的技术革命,它象征着一个时代的到来,如同工业时代之于农业时代一样,会带来天翻地覆的变革,影响人类社会百年、甚至千年的进程。而AI算力对于推动人工智能应用的重要性毋庸置疑,特别是随着今年整个生成式AI市场的爆发,更带来了对AI算力的巨大需求,为确保人工智能应用的进一步快速发展,AI算力可以说已成为其中至关重要的因素。在此背景下,在8月18日举办的2023中国算力(基础设施)大会上,联想顺应当下AI算力的需求,正式发布联想AI算力战略,从“AI赋智绿色赋

详解青云科技推出AI算力产品与服务应对算力挑战 详解青云科技推出AI算力产品与服务应对算力挑战 Oct 16, 2023 pm 08:37 PM

在青云科技AI算力发布会上,苗慧产品经理详细介绍了青云AI算力调度平台和青云AI算力云服务。以下是演讲全文整理:人工智能用户面临着算力挑战随着人工智能行业的爆发,AIGC、大模型、科研计算、企业级大数据及人工智能对算力中心提出了更高的需求。尤其是面对单一算力的数据中心,已经难以满足各行各业日益增长的算力需求,因此需要更多的智算中心、超算中心和通用云计算服务,为全社会提供算力服务。然而AI行业、AI基础设施和AI算力的用户也面临一系列挑战:多元资源统一管理瓶颈。面对用户多算力、多存储、整个计算网络

AI算力需求剧增,上海临港将打造百亿规模算力产业 AI算力需求剧增,上海临港将打造百亿规模算力产业 Jun 03, 2023 pm 05:50 PM

(编辑/吕栋)大模型和大算力的融合创新,正在掀起生产范式的重大转变,推动科学研究和产业应用迈向智能计算驱动的通用人工智能(AGI)时代。而在技术快速迭代的发展初期阶段,如何构建新一代的基础设施,降低应用门槛、缩短研发周期、提高创新效率,成为政府和产业上下游需要共同解决的新挑战。“目前,人工智能企业到临港来,不是简单关注补贴等支持政策,而是会问是否能解决算力需求。”6月2日,在上海临港新片区智算大会上,临港新片区管委会高科处处长陆瑜说道。当天,《临港新片区加快构建算力产业生态行动方案》(下称:方案

长城证券侯宾:探索AI算力产业链的投资机会,了解需求催化的影响 长城证券侯宾:探索AI算力产业链的投资机会,了解需求催化的影响 Nov 11, 2023 am 08:37 AM

在最近的Wind3C会议上,长城证券产业金融研究院和TMT研究中心的负责人侯宾带来了主题为《AI算力及卫星互联网》的分享侯宾认为,算力是人工智能发展的生产力。随着人工智能大模型的快速发展和对算力的不断扩大需求,出现了算力需求和芯片能力不匹配的现象,这会推动人工智能算力产业的发展。光模块作为中国产业化程度最高、技术储备最前沿的核心产品,受到人工智能大模型发展驱动算力持续升级的影响,需求将会快速增长卫星互联网产业仍处于起步阶段,未来的中长期发展潜力巨大,有着广阔的发展前景以下是侯宾分享的核心观点:人

微软再次出手,消息称将对挖矿转型企业投资数十亿美元为AI提供算力 微软再次出手,消息称将对挖矿转型企业投资数十亿美元为AI提供算力 Jun 04, 2023 am 10:10 AM

在正式对OpenAI进行投资后,微软旗下的相关软件逐个宣布将会搭载ChatGPT,随着用户的增加,OpenAI和不少用户都发现,想要更好的机器人系统的反馈和学习效果,需要增加机器学习的能力,也就是需要提升整体的算力。但就在今日,正在欧洲的OpenAICEO接受采访时,讨论了OpenAI的API,以及产品计划,引起了不少网友的关注。其中吸引不少小伙伴关注的是他对于AI进展的讨论。据其称,除了正常AI的迭代,GPT-3也在OpenAI的开源计划之中,但目前GPU已经跟不上了。并且据之前介绍,GPT-

机构梳理华为AI算力产品 机构梳理华为AI算力产品 Sep 24, 2023 pm 09:33 PM

应对算力挑战,亚马逊云科技发力AI基础设施建设 应对算力挑战,亚马逊云科技发力AI基础设施建设 Jul 16, 2023 pm 02:21 PM

来到第二天的2023亚马逊云科技中国峰会,依然不乏惊喜。而这一天的活动、主题研讨,都逃不过一个主题:AI。围绕持续火爆的AI风口,亚马逊云科技做了大量部署,并将拿出更多产品和技术。其中,亚马逊云科技大中华区总经理陈晓建提到,亚马逊云科技专注于帮助客户摆脱基础架构的束缚,将重心投入到技术创新之中。为了应对AI时代的高算力要求,亚马逊云科技将发力自研芯片、弹性计算存储组合和Serverless架构等产品和技术,提供更多高性价比服务。陈晓建表示,亚马逊云科技拥有全面且深入的基础设施建设能力,和英特尔、

See all articles