首頁 科技週邊 人工智慧 微軟推出小型AI模型,秘密進行'B計劃”,與OpenAI無關

微軟推出小型AI模型,秘密進行'B計劃”,與OpenAI無關

Sep 29, 2023 pm 07:53 PM
ai模型 小尺寸 微軟密謀

AI大模型在2023年成為關鍵字,也是各大科技公司競爭的熱門領域。然而,這種象徵未來的AI大模式成本過高,甚至讓像微軟這樣財大氣粗的公司開始考慮替代方案。最近有爆料顯示,在由Peter Lee領導的微軟內部的1500人研究團隊中,有一部分人轉向研發全新的LLM,它的體積更小,營運成本也更低

微軟推出小型AI模型,秘密進行B計劃”,與OpenAI無關

關於微軟的小尺寸AI模型,在3個月前已經開始顯露端倪。今年6月,微軟發布了一篇題為《Textbooks Are All You Need》的論文,使用僅有70億token的“教科書級別”數據訓練了一個13億參數的模型phi-1,證明即使是小規模的高品質數據也能使模型具備良好的效能。此外,微軟研究院也在phi-1的基礎上發布了一個名為phi-1.5的全新預訓練語言模型,適用於QA問答、聊天格式和程式碼等場景

根據微軟方面的說法,在測試常識、語言理解和邏輯推理的基準下,phi-1.5的表現超出了相當一部分大模型。 phi-1.5在具有LM-Eval Harness的GPT4AL跑分套件中,可以媲美Meta旗下擁有70億參數的開源大模型llama-2,在AGIEval得分上甚至超過了llama-2。

微軟推出小型AI模型,秘密進行B計劃”,與OpenAI無關

為什麼微軟要突然開發小尺寸的AI模型呢?外界普遍認為,這可能與OpenAI之間的問題有關。微軟是OpenAI的主要投資方,因此可以永久使用OpenAI現有的智慧財產權,但並不能控制OpenAI的決策。因此,對於像微軟這樣的巨頭來說,開發高品質的小尺寸AI模型是必不可少的,無論是出於自身戰略安全的考慮,還是為了在與OpenAI的合作中保持有利的地位

當然,AI大模型目前的能源消耗是關鍵因素。在今年年初的設計自動化大會上,AMD技術長Mark Papermaster展示了一張投影片,比較了機器學習系統的能源消耗和全球發電。根據國際能源總署的估計,訓練大型模型的資料中心的能源消耗越來越大,佔全球電力消耗的1.5%至2%,相當於整個英國的用電量。預計到2030年,這個比例將上升到4%

微軟推出小型AI模型,秘密進行B計劃”,與OpenAI無關

根據Digital Information World發布的相關報告顯示,資料中心為訓練AI模型產生的能耗將為常規雲端服務的三倍,到2028年資料中心功耗將接近4250兆瓦、比2023年增加212倍。而OpenAI訓練GPT-3的耗電量為1.287吉瓦時,約相當於120個美國家庭1年的用電量。但這也只是訓練AI模型的前期電耗,僅佔模型實際使用時所消耗電力的40%。

根據Google發布的2023年環境報告顯示,訓練AI大模型不僅會消耗大量能源,還會耗費大量水資源。根據報告顯示,Google在2022年消耗了56億加侖(約212億公升)的水,相當於37個高爾夫球場的用水量。其中52億加侖用於Google的資料中心,比2021年增加了20%

AI大模型的高能耗是很正常的。用ARM高級技術總監Ian Bratt的話來說,就是「AI運算需求是無法滿足的。網路規模越大,結果越好,可以解決的問題也越多,電力使用與網路規模成正比。」

微軟推出小型AI模型,秘密進行B計劃”,與OpenAI無關

有人工智慧從業人員表示,在疫情之前,訓練一個Transformer模型所需的能量消耗在27千瓦時的範圍內。然而,現在Transformer模型的參數數量已經從5000萬增加到了2億,能量消耗也已經超過了50萬千瓦時。也就是說,參數數量增加了四倍,但能量消耗卻增加了超過18,000倍。從某種意義上來說,人工智慧大型模式所帶來的各種創新功能,其實都是以高昂的處理效能和能量消耗為代價

更多的電力驅動更多的GPU進行AI訓練,又要大量消耗水資源來冷卻GPU,這就是問題所在。以至於微軟被曝光正在製定一個路線圖,希望用小型核反應器產生的電能來運作資料中心。更何況即便不提ESG(「環境、社會及管治」),單純從成本層面出發,研究小尺寸模型也是有價值的。

微軟推出小型AI模型,秘密進行B計劃”,與OpenAI無關

眾所周知,搭建了CUDA生態的英偉達是這一輪AI熱潮中的最大受益者,更是已經佔據了AI晶片市場的70%,如今H100、A100等計算卡更可謂是一卡難求。但現在的情況,是向英偉達購買算力已經成為了一個推高AI廠商成本的重要因素。所以小尺寸模型也意味著需要的算力資源更少,只要購買更少的GPU就能解決問題。

儘管功能更強大的大型模型確實很出色,但目前大型模型的商業化仍處於初級階段,唯一賺得盆滿缽滿的是英偉達公司這個「賣鏟子」的角色。因此,在這種情況下,微軟自然也有意改變現狀

以上是微軟推出小型AI模型,秘密進行'B計劃”,與OpenAI無關的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1317
25
PHP教程
1268
29
C# 教程
1246
24
AI大模型浪潮下算力需求爆增,商湯「大模型+大算力」賦能多元產業發展 AI大模型浪潮下算力需求爆增,商湯「大模型+大算力」賦能多元產業發展 Jun 09, 2023 pm 07:35 PM

近日,以「AI引領時代,算力驅動未來」為主題的「臨港新片區智算大會」舉行。會上,新片區智算產業聯盟正式成立,商湯科技作為算力提供企業成為聯盟一員,同時商湯科技被授予「新片區智算產業鏈鍊主」企業。作為臨港算力生態的積極參與者,商湯目前已建造了亞洲目前最大的智慧運算平台之一——商湯AIDC,可以輸出5000Petaflops的總算力,可支援20個千億參數量的超大模型同時訓練。以AIDC為底座、前瞻打造的商湯大裝置SenseCore,致力於打造高效率、低成本、規模化的下一代AI基礎設施與服務,賦能人工

研究者:AI模型推理環節耗電較多,2027年產業用電將堪比荷蘭 研究者:AI模型推理環節耗電較多,2027年產業用電將堪比荷蘭 Oct 14, 2023 am 08:25 AM

IT之家10月13日消息,《Cell》的姊妹期刊《Joule》本週出版了一篇名為《持續成長的人工智能能源足跡(Thegrowingenergyfootprintofartificialintelligence)》論文。透過查詢,我們了解到這篇論文是由科學研究機構Digiconomist的創辦人AlexDeVries發表的。他聲稱未來人工智慧的推理性能可能會消耗大量的電力,預計到2027年,人工智慧的用電量可能會相當於荷蘭一年的電力消耗量AlexDeVries表示,外界一向認為訓練一個AI模型「AI最

中國聯通發布圖文AI大模型,可實現以文生圖、影片剪輯 中國聯通發布圖文AI大模型,可實現以文生圖、影片剪輯 Jun 29, 2023 am 09:26 AM

驅動中國2023年6月28日消息,今日在上海世界行動通訊大會期間,中國聯通發布圖文大模型「鴻湖圖文大模型1.0」。中國聯通稱,鴻湖圖文大模型是首個針對營運商增值業務的大模型。第一財經記者了解到,鴻湖圖文大模型目前擁有8億訓練參數和20億訓練參數兩個版本,可以實現以文生圖、影片剪輯、以圖生圖等功能。此外,中國聯通董事長劉烈宏在今天的主題演講中也表示,生成式AI正在迎來發展的奇點,未來2年內50%的工作將受到人工智慧深刻影響。

Meta研究人員做出AI新嘗試:教導機器人無需地圖或訓練實現實體導航 Meta研究人員做出AI新嘗試:教導機器人無需地圖或訓練實現實體導航 Apr 09, 2023 pm 08:31 PM

Meta Platforms公司人工智能部门日前表示,他们正在教AI模型如何在少量训练数据支持下学会在物理世界中行走,目前已经取得了快速进展。这项研究能够显著缩短AI模型获得视觉导航能力的时间。以前,实现这类目标要需要利用大量数据集配合重复“强化学习”才能实现。Meta AI研究人员表示,这项关于AI视觉导航的探索将给虚拟世界带来重大影响。而项目的基本思路并不复杂:帮助AI像人类那样,单纯通过观察和探索实现在物理空间导航。Meta AI部门解释道,“比如,如果要让AR眼镜指引我们找到钥匙,就必须

四倍提速,位元組跳動開源高性能訓練推理引擎LightSeq技術揭秘 四倍提速,位元組跳動開源高性能訓練推理引擎LightSeq技術揭秘 May 02, 2023 pm 05:52 PM

Transformer模型出自Google團隊2017年發表的論文《Attentionisallyouneed》,該論文中首次提出了使用Attention取代Seq2Seq模型循環結構的概念,為NLP領域帶來了極大衝擊。而隨著近年來研究的不斷推進,Transformer相關技術逐漸由自然語言處理流向其他領域。截止目前,Transformer系列模型已經成為了NLP、CV、ASR等領域的主流模型。因此,如何更快地訓練和推理Transformer模型已成為業界的重要研究方向。低精度量化技術能夠

一言不合就跑分,國內AI大模型為何沉迷於'刷榜” 一言不合就跑分,國內AI大模型為何沉迷於'刷榜” Dec 02, 2023 am 08:53 AM

「不服跑個分」這句話,我相信關注手機圈的朋友一定不會感到陌生。例如,安兔兔、GeekBench等理論性能測試軟體因為能夠在一定程度上反映手機的性能,因此備受玩家的關注。同樣地,在PC處理器、顯示卡上也有相應的跑分軟體來衡量它們的性能既然"萬物皆可跑分",目前最火爆的AI大模型也開始參與跑分比拼,尤其是在"百模大戰"開始後,幾乎每天都有突破,各家都自稱為"跑分第一"國產AI大模型在性能評分方面幾乎從未落後,但在用戶體驗方面卻始終無法超越GP

中科院物理所聯合院網路中心發布AI模型MatChat 中科院物理所聯合院網路中心發布AI模型MatChat Nov 03, 2023 pm 08:13 PM

IT之家11月3日消息,中科院物理所官網發文,近期,中國科學院物理研究所/北京凝聚態物理國家研究中心SF10組和中國科學院電腦網路資訊中心共同合作,將AI大模型應用於材料科學領域,將數萬個化學合成路徑數據投餵給大語言模型LLAMA2-7b,從而獲得了MatChat模型,可用來預測無機材料的合成路徑。 IT之家注意到,該模型可根據所詢問的結構進行邏輯推理,並輸出相應的製備工藝和配方。目前已部署上線,並向所有材料科研人員開放使用,為材料研究和創新帶來了新啟發和新思路。該工作為大語言模型在細分科學領域

Nvidia發表TensorRT-LLM開源軟體 提升高階GPU晶片上的AI模型效能 Nvidia發表TensorRT-LLM開源軟體 提升高階GPU晶片上的AI模型效能 Sep 14, 2023 pm 12:29 PM

Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟體套件,擴展了NvidiaGPU上大型語言模型優化的功能,並突破了部署之後人工智慧推理性能的極限。生成式AI大語言模式因其令人印象深刻的功能而變得流行。它擴大了人工智慧的可能性,並廣泛應用於各個行業。用戶可以透過與聊天機器人對話來獲取訊息,總結大型文檔,編寫軟體程式碼,以及發現理解資訊的新方法Nvidia公司超大規模和高效能運算副總裁IanBuck表示:「大型語言模型推理變得越來越難。

See all articles