首页 科技周边 人工智能 微软推出小型AI模型,秘密进行'B计划”,与OpenAI无关

微软推出小型AI模型,秘密进行'B计划”,与OpenAI无关

Sep 29, 2023 pm 07:53 PM
ai模型 小尺寸 微软密谋

AI大模型在2023年成为关键词,也是各大科技公司竞争的热门领域。然而,这种象征未来的AI大模型成本过高,甚至让像微软这样财大气粗的公司开始考虑备选方案。最近有爆料显示,在由Peter Lee领导的微软内部的1500人研究团队中,有一部分人转向研发全新的LLM,它的体积更小,运营成本也更低

微软推出小型AI模型,秘密进行B计划”,与OpenAI无关

关于微软的小尺寸AI模型,在3个月前已经开始显露端倪。今年6月,微软发布了一篇题为《Textbooks Are All You Need》的论文,使用仅有70亿token的“教科书级别”数据训练了一个13亿参数的模型phi-1,证明即使是小规模的高质量数据也能使模型具备良好的性能。此外,微软研究院还在phi-1的基础上发布了一个名为phi-1.5的全新预训练语言模型,适用于QA问答、聊天格式和代码等场景

根据微软方面的说法,在测试常识、语言理解和逻辑推理的基准下,phi-1.5的表现超出了相当一部分大模型。phi-1.5在带LM-Eval Harness的GPT4AL跑分套件中,可以媲美Meta旗下拥有70亿参数的开源大模型llama-2,在AGIEval得分上甚至超过了llama-2。

微软推出小型AI模型,秘密进行B计划”,与OpenAI无关

为什么微软要突然开发小尺寸的AI模型呢?外界普遍认为,这可能与OpenAI之间的问题有关。微软是OpenAI的主要投资方,因此可以永久使用OpenAI现有的知识产权,但并不能控制OpenAI的决策。因此,对于像微软这样的巨头来说,开发高质量的小尺寸AI模型是必不可少的,无论是出于自身战略安全的考虑,还是为了在与OpenAI的合作中保持有利的地位

当然,AI大模型目前的能源消耗是一个关键因素。在今年年初的设计自动化大会上,AMD首席技术官Mark Papermaster展示了一张幻灯片,比较了机器学习系统的能源消耗和全球发电情况。根据国际能源署的估计,训练大型模型的数据中心的能源消耗越来越大,占全球电力消耗的1.5%至2%,相当于整个英国的用电量。预计到2030年,这个比例将上升到4%

微软推出小型AI模型,秘密进行B计划”,与OpenAI无关

根据Digital Information World发布的相关报告显示,数据中心为训练AI模型产生的能耗将为常规云服务的三倍,到2028年数据中心功耗将接近4250兆瓦、比2023年增加212倍。而OpenAI训练GPT-3的耗电量为1.287吉瓦时,大约相当于120个美国家庭1年的用电量。但这还仅仅只是训练AI模型的前期电耗,仅占模型实际使用时所消耗电力的40%。

根据谷歌发布的2023年环境报告显示,训练AI大模型不仅会消耗大量能源,还会耗费大量水资源。据报告显示,谷歌在2022年消耗了56亿加仑(约212亿升)的水,相当于37个高尔夫球场的用水量。其中52亿加仑用于谷歌的数据中心,比2021年增加了20%

AI大模型的高能耗是很正常的。用ARM高级技术总监Ian Bratt的话来说,就是“AI计算需求是无法满足的。网络规模越大,结果越好,可以解决的问题也越多,电力使用与网络规模成正比。”

微软推出小型AI模型,秘密进行B计划”,与OpenAI无关

有人工智能从业者表示,在疫情之前,训练一个Transformer模型所需的能量消耗在27千瓦时的范围内。然而,现在Transformer模型的参数数量已经从5000万增加到了2亿,能量消耗也已经超过了50万千瓦时。也就是说,参数数量增加了四倍,但能量消耗却增加了超过18000倍。从某种意义上来说,人工智能大型模型所带来的各种创新功能,实际上都是以高昂的处理性能和能量消耗为代价

更多的电力驱动更多的GPU进行AI训练,又要大量消耗水资源来冷却GPU,这就是问题所在。以至于微软被曝光正在制定一个路线图,希望用小型核反应堆产生的电能来运营数据中心。更何况即便不提ESG(“环境、社会及管治”),单纯从成本层面出发,研究小尺寸模型也是有价值的。

微软推出小型AI模型,秘密进行B计划”,与OpenAI无关

众所周知,搭建了CUDA生态的英伟达是这一轮AI热潮中的最大受益者,更是已经占据了AI芯片市场的70%,如今H100、A100等计算卡更可谓是一卡难求。可现在的情况,是向英伟达购买算力已经成为了一个推高AI厂商成本的重要因素。所以小尺寸模型也就意味着需要的算力资源更少,只需购买更少的GPU就能解决问题。

尽管功能更强大的大型模型确实很出色,但目前大型模型的商业化仍处于初级阶段,唯一赚得盆满钵满的是英伟达公司这个“卖铲子”的角色。因此,在这种情况下,微软自然也有意改变现状

以上是微软推出小型AI模型,秘密进行'B计划”,与OpenAI无关的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

AI大模型浪潮下算力需求爆增,商汤“大模型+大算力”赋能多产业发展 AI大模型浪潮下算力需求爆增,商汤“大模型+大算力”赋能多产业发展 Jun 09, 2023 pm 07:35 PM

近日,以“AI引领时代,算力驱动未来”为主题的“临港新片区智算大会”举行。会上,新片区智算产业联盟正式成立,商汤科技作为算力提供企业成为联盟一员,同时商汤科技被授予“新片区智算产业链链主”企业。作为临港算力生态的积极参与者,商汤目前已建设了亚洲目前最大的智能计算平台之一——商汤AIDC,可以输出5000Petaflops的总算力,可支持20个千亿参数量的超大模型同时训练。以AIDC为底座、前瞻打造的商汤大装置SenseCore,致力于打造高效率、低成本、规模化的下一代AI基础设施与服务,赋能人工

研究者:AI模型推理环节耗电更多,2027年行业用电将堪比荷兰 研究者:AI模型推理环节耗电更多,2027年行业用电将堪比荷兰 Oct 14, 2023 am 08:25 AM

IT之家10月13日消息,《Cell》的姐妹期刊《Joule》本周出版了一篇名为《持续成长的人工智慧能源足迹(Thegrowingenergyfootprintofartificialintelligence)》论文。通过查询,我们了解到这篇论文是由科研机构Digiconomist的创始人AlexDeVries发表的。他声称未来人工智能的推理性能可能会消耗大量的电力,预计到2027年,人工智能的用电量可能会相当于荷兰一年的电力消耗量AlexDeVries表示,外界一向认为训练一个AI模型“AI最

一言不合就跑分,国内AI大模型为何沉迷于'刷榜” 一言不合就跑分,国内AI大模型为何沉迷于'刷榜” Dec 02, 2023 am 08:53 AM

“不服跑个分”这句话,我相信关注手机圈的朋友一定不会感到陌生。例如,安兔兔、GeekBench等理论性能测试软件因为能够在一定程度上反映手机的性能,因此备受玩家的关注。同样地,在PC处理器、显卡上也有相应的跑分软件来衡量它们的性能既然"万物皆可跑分",目前最火爆的AI大模型也开始参与跑分比拼,尤其是在"百模大战"开始后,几乎每天都有突破,各家都自称为"跑分第一"国产AI大模型在性能评分方面几乎从未落后,但在用户体验方面却始终无法超越GP

中国联通发布图文AI大模型,可实现以文生图、视频剪辑 中国联通发布图文AI大模型,可实现以文生图、视频剪辑 Jun 29, 2023 am 09:26 AM

驱动中国2023年6月28日消息,今日在上海世界移动通信大会期间,中国联通发布图文大模型“鸿湖图文大模型1.0”。中国联通称,鸿湖图文大模型是首个面向运营商增值业务的大模型。第一财经记者了解到,鸿湖图文大模型目前拥有8亿训练参数和20亿训练参数两个版本,可以实现以文生图、视频剪辑、以图生图等功能。此外,中国联通董事长刘烈宏在今天的主题演讲中也表示,生成式AI正在迎来发展的奇点,未来2年内50%的工作将受到人工智能深刻影响。

中科院物理所联合院网络中心发布AI模型MatChat 中科院物理所联合院网络中心发布AI模型MatChat Nov 03, 2023 pm 08:13 PM

IT之家11月3日消息,中科院物理所官网发文,近期,中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中心共同合作,将AI大模型应用于材料科学领域,将数万个化学合成路径数据投喂给大语言模型LLAMA2-7b,从而获得了MatChat模型,可用来预测无机材料的合成路径。IT之家注意到,该模型可根据所询问的结构进行逻辑推理,并输出相应的制备工艺和配方。目前已部署上线,并向所有材料科研人员开放使用,为材料研究和创新带来了新启发和新思路。该工作为大语言模型在细分科学领域

四倍提速,字节跳动开源高性能训练推理引擎LightSeq技术揭秘 四倍提速,字节跳动开源高性能训练推理引擎LightSeq技术揭秘 May 02, 2023 pm 05:52 PM

Transformer模型出自于Google团队2017年发表的论文《Attentionisallyouneed》,该论文中首次提出了使用Attention替换Seq2Seq模型循环结构的概念,给NLP领域带来了极大冲击。且随着近年来研究的不断推进,Transformer相关技术逐渐由自然语言处理流向其他领域。截止目前,Transformer系列模型已经成为了NLP、CV、ASR等领域的主流模型。因此,如何更快地训练和推理Transformer模型已成为业界的一个重要研究方向。低精度量化技术能够

Meta研究人员做出AI新尝试:教机器人无需地图或训练实现物理导航 Meta研究人员做出AI新尝试:教机器人无需地图或训练实现物理导航 Apr 09, 2023 pm 08:31 PM

Meta Platforms公司人工智能部门日前表示,他们正在教AI模型如何在少量训练数据支持下学会在物理世界中行走,目前已经取得了快速进展。这项研究能够显著缩短AI模型获得视觉导航能力的时间。以前,实现这类目标要需要利用大量数据集配合重复“强化学习”才能实现。Meta AI研究人员表示,这项关于AI视觉导航的探索将给虚拟世界带来重大影响。而项目的基本思路并不复杂:帮助AI像人类那样,单纯通过观察和探索实现在物理空间导航。Meta AI部门解释道,“比如,如果要让AR眼镜指引我们找到钥匙,就必须

Nvidia发布TensorRT-LLM开源软件 提升高端GPU芯片上的AI模型性能 Nvidia发布TensorRT-LLM开源软件 提升高端GPU芯片上的AI模型性能 Sep 14, 2023 pm 12:29 PM

Nvidia近日宣布推出一款名为TensorRT-LLM的新开源软件套件,扩展了NvidiaGPU上大型语言模型优化的功能,并突破了部署之后人工智能推理性能的极限。生成式AI大语言模型因其令人印象深刻的功能而变得流行。它扩大了人工智能的可能性,并广泛应用于各个行业。用户可以通过与聊天机器人对话来获取信息,总结大型文档,编写软件代码,以及发现理解信息的新方法Nvidia公司超大规模和高性能计算副总裁IanBuck表示:“大型语言模型推理变得越来越难。模型的复杂性不断增加,模型变得越来越智能,也变得

See all articles