AI大模型驶向产业之海，需要高质数据'河道”引航-人工智能-PHP中文网

首页

科技周边

人工智能

AI大模型驶向产业之海，需要高质数据'河道”引航

PHPz

Dec 02, 2023 am 08:45 AM

数据导航产业布局模型驱动

在某次行业峰会上，一位来自清华大学的院士科学家透露，我们的AI大模型是在万卡集群上进行训练的，每三小时就会出现一次错误。虽然听起来有点可笑，但这已经达到了世界先进水平

风靡全球的AI大模型，是今年毋庸置疑的风口，数量不断增长，达到了惊人的水平。“百舸争流”之下，大家却经常会忽略一个关键问题：AI大模型带来的数据激流，也比想象中更加汹涌。

“三小时出错一次”，听起来不可思议的故障率，却是大模型从业者要面对的常态，甚至是“优等生”。目前业界的普遍做法，是写容错检查点checkpoint。既然三小时就报错，那就2.5小时停一次，写好检查点，把数据存起来，再开始训练。一旦出现故障，可以从写好的检查点恢复，避免“从头开始”、全部白干。而检查点需要存储的数据多，会耗费大量的时间。该院士团队基于llama 2架构研发的大模型，数据存一次硬件，就需要十个小时，存储效率直接影响了开发进度。

如果说大规模的异构数据，是肆意奔涌的激流，存储系统就是承载着数据流量的河道，其宽阔坚固程度直接决定了数据是否会淤塞甚至停滞，从而卡住AI大模型的生命线。可以说，整个大模型行业的生产力和效率，都被存储规定了“上限”。

这也是为什么，存储作为AI数据基础设施，受到越来越多关注。

AI大模型驶向产业之海，需要高质数据河道”引航

11月29日，“数智创新 AI未来”2023中国数据与存储峰会在北京举办。曙光存储发布了面向AI大模型的存储解决方案。

借此机会，我们一起了解一下，AI大模型浪潮来袭，给存储带来的承载挑战，以及曙光存储是如何为智能产业引航，助推AI大模型百舸扬帆。

AI大模型正在进入产业的深水区，传统存储方式面临着数据的挑战

最近我去了一趟云南，发现不仅北上广等科技重地的大模型建设如火如荼，在昆明、大理等二三线城市，甚至边疆地区，都在积极地探索大模型行业应用。

各行各业走向智能化，几乎都点燃了对大模型的炽热兴趣。这时候，一个关键问题也显露了出来：AI大模型的产业化风潮，需要升级存储基础设施。

模型开发者的每一次训练，数据都在向存储系统发起多种挑战：

数据洪潮的冲击。随着大模型的产业落地，许多行业都开始训练专属模型，大量行业数据、专有数据、新的标注数据被输送给大模型，澎湃的数据数量对存储系统提出了挑战。云南某数据科技公司提到，行业大模型要用高质量的数据集、文档、客户私有数据进行训练，每个项目都是单独成立标注组，数据规模持续增大，存储诉求和成本也随之增加。

AI大模型驶向产业之海，需要高质数据河道”引航

2.数据淤塞的桎梏。超大规模数据预处理的速度慢、耗时长，采集、归类、搬迁等过程费时费力，一旦存储性能跟不上，海量文件吞吐慢、多读少写，检查点Checkpoint等待耗时久，会延缓开发进度，增加开发成本。

3.数据复杂的暗涌。此外，AI大模型要用到大量异构数据，文件格式复杂、数据集类型多样，数据数量激增，传统存储难以应对数据复杂性的挑战，容易产生消化不良的问题，造成数据访问效率低，从而造成模型运行效率下降，训练算力消耗增多，无法充分“压榨”昂贵的GPU算力资源。比如云南当地的太阳观测站，通过让AI科学计算模型学习海量图片，呈现太阳真实的样子，每天产生2TB的图片数据，当前存储的吞吐效率低，会导致训练集加载慢、数据处理周期长，拖慢研究进程。

4. 数据安全的隐忧。目前，AI大模型已经深度渗透各行业之中，在训练开发及应用落地过程中需要海量的数据支撑，其中包含行业或个人敏感信息的数据，如果没有合理的数据脱敏和数据托管机制，则可能造成数据泄露，给行业和个人造成损失。同时，模型安全风险也需重视，比如，插件可能被植入有害内容，成为不法分子欺诈和“投毒”的工具，危及社会和产业安全。

AI大模型驶向产业之海，需要高质数据河道”引航

AI大模型驶向产业深水区，令人欣喜的是，这项技术创新正在深度融入各行各业，满足智能化需求，生机勃勃。然而，也存在一些担忧，数据工程在大模型的整个生命周期中起着重要作用，包括数据收集、清理、训练、推理部署和反馈调优等各个阶段，都需要大量的数据。然而，存储问题成为一个瓶颈，这意味着AI大模型在各个阶段都可能面临数据堵塞、故障和效率低下的情况，这将导致大模型的开发周期和综合成本非常高，超出产业的承受能力

为了避免数据淤塞，支持和培养大型模型的产业发展，我们需要对存储“河道”进行疏浚。曙光存储提供了一种新的解决方案，这为我们发现了有价值的参考案例

高质数据“航道”，曙光存储给大模型行业一个答案

经过与AI大模型开发者的交流，我得出了一个明确的结论：构建一个适配AI大模型的全新存储体系，已经不再需要讨论，关键是谁能先完成方案升级、提供实用的解决方案

洞察行业的存力需求，曙光存储打造了以ParaStor大模型专用存储为底座的AI大模型存储解决方案，写下了自己的答案。

AI大模型驶向产业之海，需要高质数据河道”引航