目录
ChatGPT专用GPU已来
挑战芯片极限破,计算光刻提速40倍
一手带出ChatGPT
ChatGPT在跑,英伟达在赚
要做AI界的「台积电」
首页 科技周边 人工智能 老黄手捧ChatGPT专用「核弹」炸场,英伟达H100至尊版速度提10倍!

老黄手捧ChatGPT专用「核弹」炸场,英伟达H100至尊版速度提10倍!

Apr 13, 2023 am 10:10 AM
ai chatgpt

英伟达,赢麻了!

刚刚结束的GTC大会上,靠着满屏的「生成式AI」,手握一块支撑ChatGPT算力、提速10倍的H100 NVLINK芯片,老黄就差把这几个字写在脸上——「我是赢家」。

图片

ChatGPT,Microsoft 365, Azure,Stable Diffusion,DALL-E,Midjourney……所有这些时下最红最爆的AI产品,英伟达全都能从中分得一杯羹。

今年初ChatGPT在全球的爆火,让英伟达股价飙升,市值直接增加700多亿美元。目前,英伟达市值为6400亿美元。

图片

而如今,AI的iPhone时刻已经到来,第四次科技革命就要开启,而手握A100和H100的英伟达,或成最大赢家。

在GTC大会上,老黄宣布了英伟达在GPU、加速库、计算光刻、云平台上的亮眼进步,更是放出豪言——英伟达就是要做AI圈的台积电!

现在已经有人猜测,今天的演讲都是在H100上用AIGC模型生成的。

ChatGPT专用GPU已来

这次大会上最重磅的发布,就是针对ChatGPT打造的NVIDIA H100 NVLINK。

因为算力需求巨大,针对ChatGPT等LLM的推理,英伟达推出了新款Hopper GPU,配备双GPU NVLINK的PCIE H100,具有94B内存。

图片

事实上,深度学习的历史从2012年之后,就一直与英伟达息息相关。

老黄表示,2012年深度学习元老Hinton和学生Alex Kerchevsky、Ilya Suskever在训练AlexNet时,用的正是GeForce GTX 580。

随后,AlexNet一举夺得ImageNet图像分类竞赛冠军,成为了深度学习大爆炸的奇点。

而时隔10年,在OpenAI的Ilya Suskever也是用着英伟达的DGX,训练出了ChatGPT背后的GPT3,及GPT3.5。

图片

老黄自豪地说,目前在云上唯一可以实际处理ChatGPT的GPU,就是HGX A100。

但与A100相比,一台搭载四对H100和双GPU NVLINK的服务器速度还要快上10倍!因为H100可以将LLM的处理成本降低一个数量级。

随着生成式AI掀起一波机遇浪潮,AI正处于转折点,使得推理工作负载呈阶梯函数式增长。

在以前,设计一个云数据中心来处理生成式AI,是巨大的挑战。

一方面,理想情况下最好使用一种加速器,使数据中心具有弹性;但另一方面,没有一个加速器能以最优的方式处理在算法、模型、数据类型和大小方面的多样性。英伟达的One Architecture平台就兼具加速功能和弹性。

而今天,英伟达宣布,推出全新的推理平台。每种配置都对某类工作负载进行了优化。

图片

比如针对AI视频工作负载,英伟达就推出了L4,在视频解码和转码、视频内容审核、视频通话功能上做了优化。

而一台8-GPU L4服务器,将取代一百多台用于处理AI视频的双插槽CPU服务器。

同时,英伟达还针对Omniverse、图形渲染以及文本转图像/视频等生成式AI推出了L40。其性能是英伟达最受欢迎的云推理GPU T4的10倍。

当前,Runway推出的Gen-1,以及Gen-2生成式AI模型拥有的强大能力便是借助了英伟达的GPU。

另外,英伟达还推出了全新的超级芯片Grace-Hopper,适用于推荐系统和向量数据库。

挑战芯片极限破,计算光刻提速40倍

在芯片领域,英伟达联合台积电、ASML和Synopsys,历时4年终于完成了计算光刻技术的一项重大突破——NVIDIA cuLitho计算光刻库。

在到达2nm制程的极限后,光刻就是突破点。

计算光刻模拟了光通过光学元件后与光刻胶相互作用时的行为,通过应用逆物理算法,我们可以预测掩膜板上的图案,以便在晶圆上生成最终图案。

在芯片设计和制造领域中,计算光刻是最大的计算工作负载,每年都要消耗数百亿CPU小时。相比之下,英伟达创造的这个新算法,可以让日益复杂的计算光刻工作流程能够在GPU上并行执行。

总结来说,cuLitho不仅能使计算速度提升40倍,而且功耗也可以降低9倍之多。

举个例子,英伟达的H100需要89块掩膜板。

如果用CPU进行处理的话,每个掩膜板都需要消耗两周的时间。而如果在GPU上运行cuLitho,则只需8个小时即可处理完一个掩膜板。

而台积电也可以用500个DGX H100系统中的4,000个Hopper GPU,完成之前需要多达40,000台基于CPU的服务器才能搞定的工作,并且功率也会从35MW降至5MW。

图片

值得注意的是,cuLitho加速库与Ampere和Volta架构的GPU也是兼容的,不过Hopper是最快的解决方案。

老黄表示,由于光刻技术已经处于物理学的极限,晶圆厂能够提高产量,为2nm及以后的发展做好准备。

AI的iPhone时刻

这几个月,ChatGPT以摧枯拉朽之势,眼看就要掀起第四次科技革命。「我们正处于AI的iPhone时刻」这个说法,也随之广泛流传开。

在GTC大会上,老黄也是激动地把这句话重复了三遍。

iPhone时刻来临,初创公司如OpenAI在竞相构建颠覆性的产品和商业模式,而谷歌、微软这样的老牌公司,则在寻求着应对之法。

它们的种种举动,都是由生成式AI在全球引发的制定AI战略的紧迫感。

英伟达加速计算始于DGX AI超级计算机,这也是当前大型语言模型实现突破的背后引擎。

GTC上,老黄自豪地表示,是我亲手将全球首款DGX交给了OpenAI。

从那之后,「财富」100强企业中,其中有一半都安装了DGXAI超级计算机。

DGX配有8个H100 GPU模组,同时H100配有Transformer引擎,能够处理ChatGPT这样令人惊叹的模型。

8个H100模组通过NVLINK Switch彼此相连,实现了全面无阻塞通信。8个H100协同工作,就像是一个巨型的GPU。

让老黄倍感激动的是,微软宣布Azure将向其H100 AI超级计算机开放私人预览版。

并称,「DGX超计算机是现代AI工厂。我们正处于AI的iPhone时刻。」

一手带出ChatGPT

过去十年,加速和纵向扩展结合使各种应用实现百万倍性能提升。

令人印象最深刻的例子,便是2012年,AlexNet深度学习框架的提出。

当时,Alex Krizhevsky、Ilya Suskever,以及Hinton在GeForce GTX 580上使用了1400万张图完成了训练,可处理262千万亿次浮点运算。

十年后,Transformer面世。

Ilya Suskever训练了GPT-3来预测下一个单词,需要进行的浮点运算比训练AlexNet模型要多一百万倍。

由此,创造出了令全世界震惊的AI——ChatGPT。

用老黄的一句话总结:

这意味着崭新的计算平台已经诞生,AI的「iPhone时刻」已经到来。加速计算和AI技术已经走进现实。

加速库是加速计算的核心。这些加速库连接了各种应用,进而再连接到各行各业,形成了网络中的网络。

经过30年的开发,目前已经有数千款应用被英伟达的库加速,几乎涉及科学和工业的每个领域。

目前,所有的英伟达GPU都兼容CUDA。

现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域。

这次GTC大会,英伟达宣布更新了其中的100个。

英伟达Quantum平台由库和系统组成,可供研究人员推进量子编程模型、系统架构和算法。

cuQuantum是用于量子电路仿真的加速库,其中IBM、百度等公司已经将这一加速库集成到他们的仿真框架中。

Open Quantum CUDA是英伟达的混合GPU-Quantum编程模型。

英伟达还宣布推出一个量子控制链路,这是与Quantum Machines合作开发的。它可以将英伟达GPU连接到量子计算机,以极快的速度进行纠错。

还有RAFT新库推出,用于加速索引、数据加载和近邻搜索。

此外,英伟达还宣布了DGX Quantum,用DGX构建,并利用最新开源的CUDA Quantum,这个新平台为从事量子计算的研究人员提供了一个革命性的高性能和低延迟的架构。

图片

英伟达还推出了NVIDIA Triton Management Service软件,可在整个数据中心自动扩展和编排Triton推理实例。适用于像GPT-3大语言模型的多GPU、多节点推理。

用于计算机视觉的CV-CUDA和用于视频处理的VPF是英伟达新的云规模加速库。

老黄宣布CV-CUDA Beta优化了预处理和后处理,实现了更高的云吞吐量,将成本和能耗减少了四分之一。

目前,微软处理视觉搜索、Runway为其生成式AI视频处理过程,全都采用了CV-CUDA和VRF库。

此外,英伟达加速计算还帮助基因组学实现了里程碑式发展。使用英伟达助力的仪器设备,将整个基因组测序的成本降低至100美元,成为另一个里程碑。

英伟达NVIDIA Parabrics加速库可用于云端或仪器设备内的端到端基因组分析,并且适用于各种公有云和基因组学平台。

ChatGPT在跑,英伟达在赚

现在,ChatGPT、Stable Diffusion、DALL-E和Midjourney,已经唤醒了全世界对于生成式AI的认知。

当红炸子鸡ChatGPT仅在推出2个月后,就月活破亿,已经成为史上用户增长最快的应用。

图片

可以说,它就是一台计算机。不仅能生成文本、写诗、改写研究论文、解决数学问题、甚至还能编程。

众多突破性成果造就了今天的生成式AI。

Transformer能够以大规模并行的方式,从数据的关系和依赖性中学习上下文和含义。这使得LLMs能够利用海量数据进行学习,在没有明确训练的情况下执行下游任务。

另外,受物理学启发的扩散模型,能够通过无监督学习来生成图像。

老黄总结道,短短十几年,我们就从识别猫,跨越到了生成在月球行走的太空服猫的过程。

现在完全可以说,生成式AI就是一种新的计算机,一种可以用人类语言进行编程的计算机。

图片

此前,命令计算机解决问题,是独属于程序员的特权,但是如今,人人都可以是程序员了。

和比尔盖茨一样,老黄也下了类似的定义:生成式AI是一种新型计算平台,与PC、互联网、移动设备和云类似。

通过Debuild,我们只要说清楚自己想要什么,就可以直接设计和部署Web应用。

很明显,生成式AI将几乎重塑所有行业。

图片

要做AI界的「台积电」

在这样的背景下,专业公司都需要使用自己的专有数据,来构建定制模型。

接着,老黄自豪宣布,行业需要一个类似台积电的代工厂,来构建自定义的大语言模型,而英伟达,就是这个「台积电」!

大会上,英伟达宣布推出NVIDIA AI Foundations云服务,让客户可以定制LLM和生成式AI。

图片

这个云服务包括语言、视觉和生物学模型制作服务。

其中,Nemo用于构建定制的语言文本转文本生成式模型。

图片

而Picasso是视觉语言模型制作,可以用于训练自定义模型,包括图像、视频和3D应用。

只要向Picasso发送文本提示和元数据的API调用,Picasso就会用DGX Cloud上的模型把生成的素材发送回应用。

更厉害的地方是,把这些素材导入NVIDIA Omniverse,就可以构建逼真的元宇宙应用,和数字孪生仿真。

另外,英伟达还在和Shutterstock合作,开发Edify-3D生成式模型。

同时,英伟达和Adobe的合作也继续扩展,把生成式AI融入营销人员和创意人士的日常工作流,并且,尤其注意对于艺术家版权的保护。

第三个领域,就是生物学。

如今,药物研发行业的价值已经达到近2万亿元,研发投入高达2500亿美元。

NVIDIA Clara就是一款医疗健康应用框架,用于影像、仪器、基因组学分析和药物研发。

而最近,生物圈的热门方向是利用生成式AI发现疾病靶因、设计新分子或蛋白类药物等。

与之相应的,BIONEMO可以让用户使用专有数据创建、微调、提供自定义模型,包括AlphaFold、ESMFold、OpenFold等蛋白质预测模型。

最后,老黄总结道,NVIDIA AI Foundations是一个云服务和代工厂,用于构建自定义语言模型和生成式AI。

老黄云服务,月租36999美元

英伟达这次,还推出了一款云服务。

它敏锐地看到客户需要更简单快捷访问NVIDIA AI的需求,因而推出了NVIDIA DGX Cloud。

图片

DGX Cloud与Microsoft Azure、Google GCP和Oracle OCI都有合作。只要一个浏览器,NVIDIA DGX AI超级计算机,就能即时接入每家公司!

在这款云上,可以运行NVIDIA AI Enterprise加速库套件,直接解决AI端到端的开发和部署。

并且,云上不止提供NVIDIA AI,还有全球最主要的几大云服务商。

而英伟达的第一个NVIDIA DGX Cloud,就是Oracle Cloud Infrastructure(OCI)。

图片

在OCI中,NVIDIA CX-7和BlueField-3两个王炸合体,立马组合出一台强力超算。

据介绍,企业现在可以租用DGX Cloud,月租36999美元起。

最后,当然还是每年GTC大会的保留节目——Omniverse。老黄宣布了关于元宇宙平台Omniverse更新。

现在,Microsoft和NVIDIA,正准备将Omniverse带给数以亿计的Microsoft 365和Azure用户。

此外,还有消息称:老黄为了能让H100合规地出口中国,便照着之前A800的经验特调了一款「H800」,将芯片之间的数据传输率降到了H100的50%左右。

总结来说,老黄在这次的大会已经相当明确,英伟达要做AI领域的台积电,像晶圆厂一样提供代工,在此基础上让行业内其他公司训练算法。

这种商业模式,能成功吗?

以上是老黄手捧ChatGPT专用「核弹」炸场,英伟达H100至尊版速度提10倍!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian Apache日志级别如何设置 Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

如何优化debian readdir的性能 如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

Debian OpenSSL如何进行数字签名验证 Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证,可以按照以下步骤操作:准备工作安装OpenSSL:确保你的Debian系统已经安装了OpenSSL。如果没有安装,可以使用以下命令进行安装:sudoaptupdatesudoaptinstallopenssl获取公钥:数字签名验证需要使用签名者的公钥。通常,公钥会以文件的形式提供,例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

See all articles