首页 科技周边 人工智能 AI大模型驶向产业之海,需要高质数据'河道”引航

AI大模型驶向产业之海,需要高质数据'河道”引航

Dec 02, 2023 am 08:45 AM
数据导航 产业布局 模型驱动

在某次行业峰会上,一位来自清华大学的院士科学家透露,我们的AI大模型是在万卡集群上进行训练的,每三小时就会出现一次错误。虽然听起来有点可笑,但这已经达到了世界先进水平

风靡全球的AI大模型,是今年毋庸置疑的风口,数量不断增长,达到了惊人的水平。“百舸争流”之下,大家却经常会忽略一个关键问题:AI大模型带来的数据激流,也比想象中更加汹涌。

“三小时出错一次”,听起来不可思议的故障率,却是大模型从业者要面对的常态,甚至是“优等生”。目前业界的普遍做法,是写容错检查点checkpoint。既然三小时就报错,那就2.5小时停一次,写好检查点,把数据存起来,再开始训练。一旦出现故障,可以从写好的检查点恢复,避免“从头开始”、全部白干。而检查点需要存储的数据多,会耗费大量的时间。该院士团队基于llama 2架构研发的大模型,数据存一次硬件,就需要十个小时,存储效率直接影响了开发进度。

如果说大规模的异构数据,是肆意奔涌的激流,存储系统就是承载着数据流量的河道,其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞,从而卡住AI大模型的生命线。可以说,整个大模型行业的生产力和效率,都被存储规定了“上限”。

这也是为什么,存储作为AI数据基础设施,受到越来越多关注。

AI大模型驶向产业之海,需要高质数据河道”引航

11月29日,“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会,我们一起了解一下,AI大模型浪潮来袭,给存储带来的承载挑战,以及曙光存储是如何为智能产业引航,助推AI大模型百舸扬帆。

AI大模型正在进入产业的深水区,传统存储方式面临着数据的挑战

最近我去了一趟云南,发现不仅北上广等科技重地的大模型建设如火如荼,在昆明、大理等二三线城市,甚至边疆地区,都在积极地探索大模型行业应用。

各行各业走向智能化,几乎都点燃了对大模型的炽热兴趣。这时候,一个关键问题也显露了出来:AI大模型的产业化风潮,需要升级存储基础设施。

模型开发者的每一次训练,数据都在向存储系统发起多种挑战:

  1. 数据洪潮的冲击。随着大模型的产业落地,许多行业都开始训练专属模型,大量行业数据、专有数据、新的标注数据被输送给大模型,澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到,行业大模型要用高质量的数据集、文档、客户私有数据进行训练,每个项目都是单独成立标注组,数据规模持续增大,存储诉求和成本也随之增加。

AI大模型驶向产业之海,需要高质数据河道”引航

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长,采集、归类、搬迁等过程费时费力,一旦存储性能跟不上,海量文件吞吐慢、多读少写,检查点Checkpoint等待耗时久,会延缓开发进度,增加开发成本。

3.数据复杂的暗涌。此外,AI大模型要用到大量异构数据,文件格式复杂、数据集类型多样,数据数量激增,传统存储难以应对数据复杂性的挑战,容易产生消化不良的问题,造成数据访问效率低,从而造成模型运行效率下降,训练算力消耗增多,无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站,通过让AI科学计算模型学习海量图片,呈现太阳真实的样子,每天产生2TB的图片数据,当前存储的吞吐效率低,会导致训练集加载慢、数据处理周期长,拖慢研究进程。

4. 数据安全的隐忧。目前,AI大模型已经深度渗透各行业之中,在训练开发及应用落地过程中需要海量的数据支撑,其中包含行业或个人敏感信息的数据,如果没有合理的数据脱敏和数据托管机制,则可能造成数据泄露,给行业和个人造成损失。同时,模型安全风险也需重视,比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

AI大模型驶向产业之海,需要高质数据河道”引航

AI大模型驶向产业深水区,令人欣喜的是,这项技术创新正在深度融入各行各业,满足智能化需求,生机勃勃。然而,也存在一些担忧,数据工程在大模型的整个生命周期中起着重要作用,包括数据收集、清理、训练、推理部署和反馈调优等各个阶段,都需要大量的数据。然而,存储问题成为一个瓶颈,这意味着AI大模型在各个阶段都可能面临数据堵塞、故障和效率低下的情况,这将导致大模型的开发周期和综合成本非常高,超出产业的承受能力

为了避免数据淤塞,支持和培养大型模型的产业发展,我们需要对存储“河道”进行疏浚。曙光存储提供了一种新的解决方案,这为我们发现了有价值的参考案例

高质数据“航道”,曙光存储给大模型行业一个答案

经过与AI大模型开发者的交流,我得出了一个明确的结论:构建一个适配AI大模型的全新存储体系,已经不再需要讨论,关键是谁能先完成方案升级、提供实用的解决方案

洞察行业的存力需求,曙光存储打造了以ParaStor大模型专用存储为底座的AI大模型存储解决方案,写下了自己的答案。

AI大模型驶向产业之海,需要高质数据河道”引航

曙光存储AI大模型存储集群,拥有异构融合、极致性能与原生安全三大领先能力。

首先,我们可以提供千亿级的文件存储服务,它的扩展规模接近于无限。我们还特别解决了数据访问协议多样性的问题,同时支持文件、对象等多种存储协议,以避免在不同存储系统之间复制数据的情况

其次,针对AI大模型开发过程中对数据处理效率的高需求,曙光存储AI大模型存储集群可提供多级缓存加速、XDS数据加速及智能高速选路等多种数据IO性能优化能力。

为了确保全流程数据的安全,曙光存储节点提供了芯片级安全能力,并支持国密指令集。通过多级可靠性,它可以保证存储集群在训练和开发的整个周期内稳定运行,符合政策和未来的安全趋势

有人可能会问了,市面上的存储方案这么多,有的也宣传为模型开发提供专业支持。曙光存储的方案有哪些差异化价值?

AI大模型驶向产业之海,需要高质数据河道”引航

如果对各家的技术名词和产品细节云里雾里,大家不妨用几个词,记住曙光存储AI大模型存储集群的差异化价值:

1.先进。异构融合,极致性能,芯片级原生安全,展现了曙光存储的技术先进性,也针对性地解决了大模型开发的数据量大、数据形态复杂多样、吞吐效率低、存算时间长等实实在在的痛点。

2.可靠。高性能AI数据基础设施基于曙光存储的自研创新,更加可靠安全,符合信创政策和未来安全趋势,可以帮助国内大模型服务商规避海外供应链风险,从供应链安全、数据安全、模型安全等多个角度,为大模型产业的发展护航。

3.全面。曙光存储打造了涵盖从网络、计算到平台的全维度AI解决方案,支持训练开发全周期内稳定运行,可以降低综合成本,让大模型开发者和行业客户无忧前行。

总结一下,在曙光存储构建的高质“航道”上,大规模数据高效吞吐,AI大模型加速开发,因此,行业和企业可以快人一步,将大模型与垂直场景和业务深度融合,率先获得通往智能时代的船票。

第五范式的新起点,观察着众多企业竞相前进、蓬勃发展的景象

图灵奖获得者吉姆·格雷(Jim Gray),曾提出第四范式,核心是数据驱动。而随着大语言模型“智能涌现”,“智能驱动”的第五范式,更侧重于数据和智能的有机结合,成为支撑科学革命、产业革命的新底层逻辑。

一切过去的事情都是序章。人工智能如此,存储也如此

AI大模型驶向产业之海,需要高质数据河道”引航

此次大会上,凭借20年行业深耕,与在AI存储技术突破、液冷存储研发等领域的领先实践,曙光存储公司总裁惠润海获评“存储先锋”。在其领导下,多年来曙光分布式文件存储在市场中持续领跑,市场份额名列前茅。面向AI大模型的数据存储解决方案,让曙光存储又一次站到了时代前沿。

曙光存储的AI大模型存储集群,正在积极实践范式转换,以适应新的数据范式,通过数据基础设施的突破,推动大模型产业化的蓬勃发展

接下来,在存储行业的新范式、新起点,在曙光存储的高质数据“河道”上,我们会看到,行业大模型百舸争流,AI应用千帆竞渡,加速驶向智能中国。

以上是AI大模型驶向产业之海,需要高质数据'河道”引航的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

我尝试了使用光标AI编码的Vibe编码,这太神奇了! 我尝试了使用光标AI编码的Vibe编码,这太神奇了! Mar 20, 2025 pm 03:34 PM

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发,这种创新的方法使Dev

2025年2月的Genai推出前5名:GPT-4.5,Grok-3等! 2025年2月的Genai推出前5名:GPT-4.5,Grok-3等! Mar 22, 2025 am 10:58 AM

2025年2月,Generative AI又是一个改变游戏规则的月份,为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

如何使用Yolo V12进行对象检测? 如何使用Yolo V12进行对象检测? Mar 22, 2025 am 11:07 AM

Yolo(您只看一次)一直是领先的实时对象检测框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步,可显着提高准确性

Chatgpt 4 o可用吗? Chatgpt 4 o可用吗? Mar 28, 2025 pm 05:29 PM

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

Google的Gencast:Gencast Mini Demo的天气预报 Google的Gencast:Gencast Mini Demo的天气预报 Mar 16, 2025 pm 01:46 PM

Google DeepMind的Gencast:天气预报的革命性AI 天气预报经历了巨大的转变,从基本观察到复杂的AI驱动预测。 Google DeepMind的Gencast,开创性

哪个AI比Chatgpt更好? 哪个AI比Chatgpt更好? Mar 18, 2025 pm 06:05 PM

本文讨论了AI模型超过Chatgpt,例如Lamda,Llama和Grok,突出了它们在准确性,理解和行业影响方面的优势。(159个字符)

O1 vs GPT-4O:OpenAI的新型号比GPT-4O好吗? O1 vs GPT-4O:OpenAI的新型号比GPT-4O好吗? Mar 16, 2025 am 11:47 AM

Openai的O1:为期12天的礼物狂欢始于他们迄今为止最强大的模型 12月的到来带来了全球放缓,世界某些地区的雪花放缓,但Openai才刚刚开始。 山姆·奥特曼(Sam Altman)和他的团队正在推出12天的礼物前

最佳AI艺术生成器(免费付款)创意项目 最佳AI艺术生成器(免费付款)创意项目 Apr 02, 2025 pm 06:10 PM

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

See all articles