AI大模型时代的发展需要先进的存储技术来实现稳定的进展-人工智能-PHP中文网

首页

科技周边

人工智能

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

王林

Sep 19, 2023 am 09:05 AM

ai大模型稳进快进

人工智能学科起源于1956年，之后在接下来的半个世纪中几乎没有取得进展，算力和数据的发展远远落后于算法。然而，随着2000年进入互联网时代，算力的限制被打破，人工智能逐渐渗透到各行各业，并迎来了大规模模型时代的开启。然而，高质量的数据似乎成为了人工智能发展的最后的“瓶颈”

华为OceanStor Pacific在最近举行的全国高性能计算学术年会（CCF HPC China 2需要重写的是：023）上荣获了“AI 存力底座最佳创新奖”

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

AI存力的理念的出现实际上从侧面体现了数据对于AI价值的不断提升

需要重写的内容是：01

数据决定人工智能的智能水平

人工智能的发展是一个不断收集和分析数据的过程。数据作为信息的载体，是人工智能学习和理解世界的基础。通用智能是人工智能发展的最终目标，它能够自主地学习、理解、推理和解决问题，而数据是推动其发展的最大动力

那么，数据越多，AI就越智能吗？只要有大量的数据，AI就能够超越专家的作用吗？

以医学领域的人工智能系统为例，许多诊断案例实际上没有唯一正确的答案。在医学诊断中，每组症状都有一系列不同概率的可能病因，因此人工智能的辅助决策可以帮助临床医生缩小可能的病因范围，直到找到解决方案。在这种情况下，医学人工智能依赖的不是大量数据，而是准确且高质量的数据，只有这样才能确保在“筛查”时不会错过真正可能的病因

数据质量对于AI智能的重要性在这个典型示范中得到了体现

在人工智能行业中，一直存在着一个共识，即“垃圾进，垃圾出”。这意味着，如果没有高质量的数据输入，无论算法有多先进，计算能力有多强大，都无法产生高质量的结果

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

在当今时代，我们正处于大模型的风口之上。人工智能的大模型如雨后春笋般不断涌现。华为的盘古、讯飞的星火、紫东的太初等中国的一批大模型正在快速发展，致力于构建跨行业通用的人工智能能力平台，为各行各业的数字化转型提供动力

根据中国科技部新一代人工智能发展研究中心于五月底发布的《中国人工智能大模型地图研究报告》，已有79个拥有十亿参数规模以上的大模型在中国发布。虽然“百模大战”的格局已经形成，但这也引发了对大模型发展的深入思考

基于小规模数据建立的模型，其表达能力受限于数据规模，只能进行粗粒度的模拟与预测，在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型

重写后的内容是：这意味着数据的数量决定了AI智能的程度。无论数据的质量如何，数据的数量都是建设“AI存力”所需重点关注的领域

需要重写的是：02

在大数据时代，数据所面临的挑战

随着人工智能向大型模型和多模态发展，企业在开发或实施大型模型应用时面临着许多挑战

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

首先，数据预处理的周期很长。由于数据分布在不同的数据中心、不同的应用和不同的系统中，存在归集速度慢等问题，导致预处理百TB数据需要大约10天的时间，系统的利用率从一开始就需要提高效率

其次，训练集加载效率低的问题需要解决。现在大型模型的规模越来越庞大，参数级别达到千亿甚至万亿，训练过程需要大量的计算资源和存储空间。例如，多模态大型模型以海量文本和图片作为训练集，但是当前海量小文件的加载速度较慢，导致训练集加载效率不高

此外，还面临着大型模型参数频繁调优、训练平台不稳定的挑战，平均每两天就会出现一次训练中断。为了恢复训练，需要使用检查点机制，而故障恢复的时间则超过一天，给业务连续性带来了很多挑战

为了在AI大模型时代取得成功，我们需要同时关注数据的质量和数量，并构建大容量、高性能的存储基础设施。这已经成为了取得胜利的关键要素

需要重新写作的内容是：03

AI时代的关键在于存力底座

随着大数据、人工智能等技术与高性能计算的结合，高性能数据分析（HPDA）成为实现数据价值的新形式。通过利用更多历史数据、多元异构算力和分析方法，HPDA能够提高分析精度。这标志着科学研究迈向智能化的新阶段，人工智能技术将加速前沿成果的应用

如今，科研领域正在出现一种基于"数据密集型科学"的新范式。这种范式更加注重将大数据知识挖掘和人工智能训练推理技术相结合，通过计算和分析来获取新的知识和发现。这也意味着对于底层数据基础设施的需求将会发生根本性的改变。无论是高性能计算还是人工智能的未来发展，都需要建立先进的存储基础设施来应对数据的挑战

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

解决数据挑战需要从数据存储创新入手，这正如谚语所说的解铃还须系铃人

AI存力底座是基于OceanStor Pacific分布式存储开发的，并秉承AI Native设计理念，以满足AI各个环节的存储需求。AI系统对存储提出了全面的挑战，包括数据计算加速、数据存储管理以及数据存储和计算之间的高效流通等等。通过采用“大容量存储 + 高性能存储”的组合，可以确保存储资源的调度和协调一致，使每个环节都能高效运转，从而充分释放AI系统的价值

OceanStor Pacific分布式存储如何展现其核心能力呢？

首先，技术架构在业界是独创的。这套存储系统支持无限横向扩展，并且能够处理混合负载，既能高效处理小文件的IOPS，也能高速读写大文件的带宽。它具备智能的性能层和容量层数据分级流转功能，能够实现对海量数据的归集、预处理、训练和推理等全流程的AI数据管理。此外，它还具备与HPC和大数据相同的数据分析能力

重写后的内容为：其次，业内效率最佳的提升方法是通过存储的创新。首先是数据编织，即通过GFS全局文件系统将分散在不同地区的原始数据接入，实现跨系统、跨地区、跨多云的全局统一数据视图和调度，简化数据收集过程。其次是近存计算，通过存储内嵌的算力实现对近数据的预处理，减少无效数据传输，同时降低预处理服务器的等待时间，从而显著提高预处理效率

实际上，"百模大战"并不是AI大模型发展的"标志"。未来，各行各业都将通过AI大模型的能力来推动数字化转型的深入发展，同时数据基础设施的建设也将加速推进。OceanStor Pacific分布式存储在技术架构的创新和高效率的表现，已经证明自己是行业的首选

我们明白，数据已经成为与土地、劳动力、资本、技术并列的新型生产要素。过去数字化市场中的许多传统定义和运行模式都将被重新书写。只有先存力，才能确保数据驱动的人工智能大模型时代稳步向前

以上是AI大模型时代的发展需要先进的存储技术来实现稳定的进展的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7488

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

AI大模型非常昂贵只有大企业和超级富豪才能玩得转 Apr 15, 2023 pm 07:34 PM

ChatGPT大火带动AI又一波热潮，不过业界普遍认为，当AI步入大模型时代，只有大企业和超级富有的企业才玩得起AI，因为AI大模型的打造非常昂贵。首先是计算昂贵。多伦多大学市场营销教授AviGoldfarb说：“如果你想创办一家企业，自己开发大语言模型，自己计算，成本太高了。OpenAI是很贵的，要数以十亿计的美元。”租赁计算当然会便宜不少，但企业仍然要向AWS等企业支付昂贵费用。其次是数据昂贵。训练模型需要海量数据，有时数据是现成的，有时不是。CommonCrawl和LAION等数据可以免费

面向AI的数据治理体系如何构建？ Apr 12, 2024 pm 02:31 PM

近年来，随着新技术模式的出现，各行业应用场景价值打磨与海量数据积累下的产品效果提升，人工智能应用已从消费、互联网等领域，向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、销售等经济生产活动主要环节的人工智能技术和应用成熟度在不断提升，加速人工智能在各环节的落地覆盖，逐渐将其与主营业务相结合，以实现产业地位提高或经营效益优化，进一步扩大自身优势。人工智能技术创新应用的大规模落地，推动了大数据智能市场的蓬勃发展，同样也为底层的数据治理服务注入了市场活力。伴随着大数据、云计算以及算

科普：什么是AI大模型 Jun 29, 2023 am 08:37 AM

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。AI大模型的训练需要大量的数据和计算资源，通常需要使用分布式计算框架来加速训练过程。这些模型的训练过程非常复杂，需要对数据的分布、特征的选择、模型的结构等方面进行深入的研究和优化。AI大模型的应用范围非常广泛，可以用于各种场景，如智能客服、智能家居、自动驾驶等。在这些应用中，AI大模型可以帮助人们更快速、更准确地完成各种任务，提高工

AI大模型时代，数据存储新基座助推教科研数智化跃迁 Jul 21, 2023 pm 09:53 PM

生成式AI（AIGC）开启了人工智能通用化的新纪元，围绕大模型的百舸争流蔚为壮观，算力基础设施是首要的竞逐焦点，而存力觉醒也日益成为业界共识。在新的时代，大模型从单模态走向多模态，参数和训练数据集的规模呈几何级数增长，海量的非结构化数据需要高性能混合负载能力的支撑；与此同时，数据密集型范式大行其道，超算、高性能计算（HPC）等应用场景迈向纵深，既有的数据存储基座已难以满足不断升级的需求。如果说算力、算法、数据是驱动人工智能发展的“三驾马车”，那么在外部环境发生巨大变化的背景下，三者亟需重新达成动

vivo推出自主研发的通用AI大模型——蓝心大模型 Nov 01, 2023 pm 02:37 PM

vivo于11月1日在2023年的开发者大会上发布了自主研发的通用人工智能大模型矩阵——蓝心大模型vivo宣布，蓝心大模型将推出5款不同参数量级的模型，分别包含十亿、百亿、千亿三个级别的参数，覆盖核心场景，模型能力在行业中处于领先地位。vivo认为，一个好的自研大模型需要满足以下5点要求：规模大，功能全面，算法强劲，安全可靠，自主进化，并且要广泛开源重写后的内容如下：其中，首先是蓝心大模型7B，这是一个70亿级别的模型，旨在为手机端和云端提供双重服务。vivo表示，该模型在语言理解、文本创作等场

参照人类大脑，学会忘记会让AI大模型变得更好？ Mar 12, 2024 pm 02:43 PM

最近，一支计算机科学家团队研发了一种更灵活、更具弹性的机器学习模型，它们具有周期性遗忘已知信息的能力，这是现有大型语言模型所不具备的特点。实测表明，在很多情况下，“忘却法”的训练效率很高，忘却型模型表现也会更好。韩国基础科学研究院（InstituteforBasicScience）的AI工程师JeaKwon说，新研究意味着AI领域取得明显进步。“忘却法”训练效率很高目前主流的AI语言引擎大多采用人工神经网络技术。这种网络结构中的每个“神经元”实际上是一个数学函数，它们之间相互连接，接收和传递信息

AI大模型火了！科技巨头纷纷加入，多地政策加码加速落地 Jun 11, 2023 pm 03:09 PM

最近一段时间，人工智能再次成为人类创新的焦点，围绕AI的军备竞争比以往任何时候都更加激烈。不仅科技巨头纷纷扎堆加入大模型之战，生怕错过了新风口，就连包括北京、上海、深圳等地也纷纷出台政策举措，致力于开展大模型创新算法及关键技术研究，打造人工智能创新高地。AI大模型蓬勃发展，各大科技巨头纷纷加入近日，在2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示，中国人工智能大模型正呈现蓬勃发展态势，出现了多个在行业有影响力的大模型。百度创始人、董事长兼CEO李彦宏更是直言，我们正处在全新起点

讲座预约｜五位专家大论道：新技术浪潮下，AI大模型如何影响新药研发？ Jun 08, 2023 am 11:27 AM

1978年，来自加州大学的StuartMarson等人，成立了世界上第一家CADD商业公司，开创性地研发出了一套化学反应及数据库的检索系统。自此开始，计算机辅助药物设计（CADD）进入快速发展的时代，成为药企进行药物研发的重要手段之一，为这一领域带来了革命性的升级。1981年10月5日，《财富》杂志发表了题为《下一次工业革命：默克公司通过计算机设计药物》的封面文章，正式宣告了CADD技术的问世。1996年，第一款基于SBDD（基于结构的药物设计）研发的药物碳酸酐酶抑制剂成功上市，CADD在药物研

See all articles

AI大模型时代的发展需要先进的存储技术来实现稳定的进展

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题