微软正在为人工智能训练和深度学习应用开发由微软Azure云平台托管的新型超级计算机,与英伟达的合作意味着微软是首批大规模接受NVIDIA H100的公司之一。而在此之前,微软公司和OpenAI公司在2019年达成了合作关系,并在微软Azure云平台上开发了第一台超级计算机。
H100是英伟达针对服务器实现的旗舰版加速GPU,提供更高的功耗和速度,与之前基于Ampere架构的A100相比要快6倍。
极客网了解到,H100和A100 GPU将是微软新构想的超级计算机的核心,此外还有NVIDIA Quantum-2 400Gb/s InfiniBand网络和NVIDIA AI Enterprise软件套件。这项新业务还将利用微软的云计算基础设施(Azure)和虚拟机(ND和NC系列)。
据悉,通过这次合作,英伟达希望在无监督(也可以是半监督)算法学习方面取得更大的进展,允许机器创建文本、代码、数字图像、视频或音频等内容。该领域被广泛称为生成式人工智能。英伟达将利用Megatron Turing NLG 530B(它对OpenAI GPT-3的回应)来实现这一目标。
微软将通过其开发的开源库DeepSpeed来满足人工智能和深度学习工作负载优化。DeepSpeed可以帮助最小化网络基础设施的需求。该合作还确保Azure客户将能够访问NVIDIA的企业级人工智能和数据分析工具、软件和框架的云原生套件,即NVIDIA AI Enterprise软件套件。
英伟达企业计算副总裁Manuvir Das表示:“我们与微软公司的合作将为研究人员和企业提供最先进的人工智能基础设施和软件,以利用人工智能的变革力量。”
英伟达目前拥有一台Selene超级计算机,这是新冠疫情期间建造的。它基于A100, 人工智能峰值性能达到2.8 exaflops,在HPL上达到petaFLOPS。它被用于机器学习、人工智能数据分析和高性能计算(HPC),以及用于训练人工智能模型GauGAN2。与OpenAI的GLIDE和DALL-E一样,GauGAN2可以将草图和文字合成为像照片一样逼真的图像。
此外英伟达还有为先进的气候科学研究、数字生物学和人工智能的未来而建造的NVIDIA Eos,它有576个DGX H100系统和4608个DGX H100 GPU,将提供18.4 exaflops的人工智能计算性能和275 petaflops的常规科学计算性能(HPL),比日本的Fugaku(目前在Top500榜单上排名第二)快4倍。
然而,英伟达对Selene(Top500榜单第9名)和正在开发中的Eos生成式人工智能超级计算机都不看好。微软云计算和人工智能业务执行副总裁Scott Guthrie解释称:“我们与英伟达的合作将构建世界上最具扩展性的超级计算机平台,为微软Azure云平台上的每个用户提供最先进的人工智能功能。”
从本质上来说,这两家公司的合作旨在实现生成式人工智能超级计算的可扩展性,而不仅仅是纯粹的能力提升。
英伟达企业计算副总裁Manuvir Das表示:“客户可以在单个集群中部署署数千个GPU,以训练最大规模的大型语言模型,大规模构建最复杂的推荐系统,并大规模实现生成人工智能。”
英伟达还在通过Omniverse Cloud工具和服务套件扩展3D内容、设计和模拟。使用Omniverse Cloud,开发3D内容的工具甚至可以在没有采用GeForce或NVIDIARTX硬件或任何其他高性能的传统计算机上运行。
Das强调,“人工智能技术的进步和行业采用正在加速,而基础模型的突破引发了研究浪潮,培育了新的创业公司,并开发了新的企业应用。”
以上是微软英伟达牵手,想打造世界上最强大的AI超级计算机的详细内容。更多信息请关注PHP中文网其他相关文章!