微軟推出小型AI模型，秘密進行'B計劃”，與OpenAI無關-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

微軟推出小型AI模型，秘密進行'B計劃”，與OpenAI無關

PHPz

Sep 29, 2023 pm 07:53 PM

ai模型小尺寸微軟密謀

AI大模型在2023年成為關鍵字，也是各大科技公司競爭的熱門領域。然而，這種象徵未來的AI大模式成本過高，甚至讓像微軟這樣財大氣粗的公司開始考慮替代方案。最近有爆料顯示，在由Peter Lee領導的微軟內部的1500人研究團隊中，有一部分人轉向研發全新的LLM，它的體積更小，營運成本也更低

微軟推出小型AI模型，秘密進行B計劃”，與OpenAI無關

關於微軟的小尺寸AI模型，在3個月前已經開始顯露端倪。今年6月，微軟發布了一篇題為《Textbooks Are All You Need》的論文，使用僅有70億token的“教科書級別”數據訓練了一個13億參數的模型phi-1，證明即使是小規模的高品質數據也能使模型具備良好的效能。此外，微軟研究院也在phi-1的基礎上發布了一個名為phi-1.5的全新預訓練語言模型，適用於QA問答、聊天格式和程式碼等場景

根據微軟方面的說法，在測試常識、語言理解和邏輯推理的基準下，phi-1.5的表現超出了相當一部分大模型。 phi-1.5在具有LM-Eval Harness的GPT4AL跑分套件中，可以媲美Meta旗下擁有70億參數的開源大模型llama-2，在AGIEval得分上甚至超過了llama-2。

微軟推出小型AI模型，秘密進行B計劃”，與OpenAI無關

為什麼微軟要突然開發小尺寸的AI模型呢？外界普遍認為，這可能與OpenAI之間的問題有關。微軟是OpenAI的主要投資方，因此可以永久使用OpenAI現有的智慧財產權，但並不能控制OpenAI的決策。因此，對於像微軟這樣的巨頭來說，開發高品質的小尺寸AI模型是必不可少的，無論是出於自身戰略安全的考慮，還是為了在與OpenAI的合作中保持有利的地位

當然，AI大模型目前的能源消耗是關鍵因素。在今年年初的設計自動化大會上，AMD技術長Mark Papermaster展示了一張投影片，比較了機器學習系統的能源消耗和全球發電。根據國際能源總署的估計，訓練大型模型的資料中心的能源消耗越來越大，佔全球電力消耗的1.5%至2%，相當於整個英國的用電量。預計到2030年，這個比例將上升到4%

微軟推出小型AI模型，秘密進行B計劃”，與OpenAI無關

根據Digital Information World發布的相關報告顯示，資料中心為訓練AI模型產生的能耗將為常規雲端服務的三倍，到2028年資料中心功耗將接近4250兆瓦、比2023年增加212倍。而OpenAI訓練GPT-3的耗電量為1.287吉瓦時，約相當於120個美國家庭1年的用電量。但這也只是訓練AI模型的前期電耗，僅佔模型實際使用時所消耗電力的40%。

根據Google發布的2023年環境報告顯示，訓練AI大模型不僅會消耗大量能源，還會耗費大量水資源。根據報告顯示，Google在2022年消耗了56億加侖（約212億公升）的水，相當於37個高爾夫球場的用水量。其中52億加侖用於Google的資料中心，比2021年增加了20%

AI大模型的高能耗是很正常的。用ARM高級技術總監Ian Bratt的話來說，就是「AI運算需求是無法滿足的。網路規模越大，結果越好，可以解決的問題也越多，電力使用與網路規模成正比。」

微軟推出小型AI模型，秘密進行B計劃”，與OpenAI無關

有人工智慧從業人員表示，在疫情之前，訓練一個Transformer模型所需的能量消耗在27千瓦時的範圍內。然而，現在Transformer模型的參數數量已經從5000萬增加到了2億，能量消耗也已經超過了50萬千瓦時。也就是說，參數數量增加了四倍，但能量消耗卻增加了超過18,000倍。從某種意義上來說，人工智慧大型模式所帶來的各種創新功能，其實都是以高昂的處理效能和能量消耗為代價

更多的電力驅動更多的GPU進行AI訓練，又要大量消耗水資源來冷卻GPU，這就是問題所在。以至於微軟被曝光正在製定一個路線圖，希望用小型核反應器產生的電能來運作資料中心。更何況即便不提ESG（「環境、社會及管治」），單純從成本層面出發，研究小尺寸模型也是有價值的。

微軟推出小型AI模型，秘密進行B計劃”，與OpenAI無關

眾所周知，搭建了CUDA生態的英偉達是這一輪AI熱潮中的最大受益者，更是已經佔據了AI晶片市場的70%，如今H100、A100等計算卡更可謂是一卡難求。但現在的情況，是向英偉達購買算力已經成為了一個推高AI廠商成本的重要因素。所以小尺寸模型也意味著需要的算力資源更少，只要購買更少的GPU就能解決問題。

儘管功能更強大的大型模型確實很出色，但目前大型模型的商業化仍處於初級階段，唯一賺得盆滿缽滿的是英偉達公司這個「賣鏟子」的角色。因此，在這種情況下，微軟自然也有意改變現狀

以上是微軟推出小型AI模型，秘密進行'B計劃”，與OpenAI無關的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1317

PHP教程

1268

C# 教程

1246

Related knowledge

AI大模型浪潮下算力需求爆增，商湯「大模型+大算力」賦能多元產業發展 Jun 09, 2023 pm 07:35 PM

近日，以「AI引領時代，算力驅動未來」為主題的「臨港新片區智算大會」舉行。會上，新片區智算產業聯盟正式成立，商湯科技作為算力提供企業成為聯盟一員，同時商湯科技被授予「新片區智算產業鏈鍊主」企業。作為臨港算力生態的積極參與者，商湯目前已建造了亞洲目前最大的智慧運算平台之一——商湯AIDC，可以輸出5000Petaflops的總算力，可支援20個千億參數量的超大模型同時訓練。以AIDC為底座、前瞻打造的商湯大裝置SenseCore，致力於打造高效率、低成本、規模化的下一代AI基礎設施與服務，賦能人工

研究者：AI模型推理環節耗電較多，2027年產業用電將堪比荷蘭 Oct 14, 2023 am 08:25 AM

IT之家10月13日消息，《Cell》的姊妹期刊《Joule》本週出版了一篇名為《持續成長的人工智能能源足跡（Thegrowingenergyfootprintofartificialintelligence）》論文。透過查詢，我們了解到這篇論文是由科學研究機構Digiconomist的創辦人AlexDeVries發表的。他聲稱未來人工智慧的推理性能可能會消耗大量的電力，預計到2027年，人工智慧的用電量可能會相當於荷蘭一年的電力消耗量AlexDeVries表示，外界一向認為訓練一個AI模型「AI最

中國聯通發布圖文AI大模型，可實現以文生圖、影片剪輯 Jun 29, 2023 am 09:26 AM

驅動中國2023年6月28日消息，今日在上海世界行動通訊大會期間，中國聯通發布圖文大模型「鴻湖圖文大模型1.0」。中國聯通稱，鴻湖圖文大模型是首個針對營運商增值業務的大模型。第一財經記者了解到，鴻湖圖文大模型目前擁有8億訓練參數和20億訓練參數兩個版本，可以實現以文生圖、影片剪輯、以圖生圖等功能。此外，中國聯通董事長劉烈宏在今天的主題演講中也表示，生成式AI正在迎來發展的奇點，未來2年內50%的工作將受到人工智慧深刻影響。

Meta研究人員做出AI新嘗試：教導機器人無需地圖或訓練實現實體導航 Apr 09, 2023 pm 08:31 PM

Meta Platforms公司人工智能部门日前表示，他们正在教AI模型如何在少量训练数据支持下学会在物理世界中行走，目前已经取得了快速进展。这项研究能够显著缩短AI模型获得视觉导航能力的时间。以前，实现这类目标要需要利用大量数据集配合重复“强化学习”才能实现。Meta AI研究人员表示，这项关于AI视觉导航的探索将给虚拟世界带来重大影响。而项目的基本思路并不复杂：帮助AI像人类那样，单纯通过观察和探索实现在物理空间导航。Meta AI部门解释道，“比如，如果要让AR眼镜指引我们找到钥匙，就必须

四倍提速，位元組跳動開源高性能訓練推理引擎LightSeq技術揭秘 May 02, 2023 pm 05:52 PM

Transformer模型出自Google團隊2017年發表的論文《Attentionisallyouneed》，該論文中首次提出了使用Attention取代Seq2Seq模型循環結構的概念，為NLP領域帶來了極大衝擊。而隨著近年來研究的不斷推進，Transformer相關技術逐漸由自然語言處理流向其他領域。截止目前，Transformer系列模型已經成為了NLP、CV、ASR等領域的主流模型。因此，如何更快地訓練和推理Transformer模型已成為業界的重要研究方向。低精度量化技術能夠

一言不合就跑分，國內AI大模型為何沉迷於'刷榜” Dec 02, 2023 am 08:53 AM

「不服跑個分」這句話，我相信關注手機圈的朋友一定不會感到陌生。例如，安兔兔、GeekBench等理論性能測試軟體因為能夠在一定程度上反映手機的性能，因此備受玩家的關注。同樣地，在PC處理器、顯示卡上也有相應的跑分軟體來衡量它們的性能既然"萬物皆可跑分"，目前最火爆的AI大模型也開始參與跑分比拼，尤其是在"百模大戰"開始後，幾乎每天都有突破，各家都自稱為"跑分第一"國產AI大模型在性能評分方面幾乎從未落後，但在用戶體驗方面卻始終無法超越GP

中科院物理所聯合院網路中心發布AI模型MatChat Nov 03, 2023 pm 08:13 PM

IT之家11月3日消息，中科院物理所官網發文，近期，中國科學院物理研究所/北京凝聚態物理國家研究中心SF10組和中國科學院電腦網路資訊中心共同合作，將AI大模型應用於材料科學領域，將數萬個化學合成路徑數據投餵給大語言模型LLAMA2-7b，從而獲得了MatChat模型，可用來預測無機材料的合成路徑。 IT之家注意到，該模型可根據所詢問的結構進行邏輯推理，並輸出相應的製備工藝和配方。目前已部署上線，並向所有材料科研人員開放使用，為材料研究和創新帶來了新啟發和新思路。該工作為大語言模型在細分科學領域

Nvidia發表TensorRT-LLM開源軟體提升高階GPU晶片上的AI模型效能 Sep 14, 2023 pm 12:29 PM

Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟體套件，擴展了NvidiaGPU上大型語言模型優化的功能，並突破了部署之後人工智慧推理性能的極限。生成式AI大語言模式因其令人印象深刻的功能而變得流行。它擴大了人工智慧的可能性，並廣泛應用於各個行業。用戶可以透過與聊天機器人對話來獲取訊息，總結大型文檔，編寫軟體程式碼，以及發現理解資訊的新方法Nvidia公司超大規模和高效能運算副總裁IanBuck表示：「大型語言模型推理變得越來越難。

See all articles

微軟推出小型AI模型，秘密進行'B計劃”，與OpenAI無關

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題