首頁 科技週邊 人工智慧 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

Feb 29, 2024 pm 03:55 PM
騰訊 工程

騰訊的研究團隊進行了一項關於agent的可拓展性的研究。他們發現,透過簡單的取樣投票,大型語言模型(LLM)的表現隨著實例化agent數量的增加而增強。這項研究首次在各種場景中驗證了這一現象的普遍性,並與其他複雜方法進行了對比,探討了這一現象背後的原因,並提出了進一步發揮scaling效應的方法。

數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

  • 論文標題:More Agents Is All You Need

  • 論文網址:https://arxiv .org/abs/2402.05120

  • 程式碼位址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,來自騰訊的研究者發現:只需透過一種簡單的採樣投票法,大語言模型的性能就會隨著實例化agent 的數量的增大而增強,呈現scaling property(可拓展性),無需複雜的多LLM agents 協作框架以及prompt工程方法的加持。此外,此方法與現有的複雜方法正交,結合後,可進一步增強 LLM,其增強程度與任務難度相關。該論文做了第一個關於raw agent(指不依賴複雜的prompt工程和協作框架的LLM agent)的scaling property 的研究,其對各種LLM 基準進行了全面的實驗,以驗證此發現的普遍性,並研究了可以促進其發生的策略。目前程式碼已開源。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
                                   作用中對多重中的相關模型中探討了多種模式一樣#LL#N#LL#LL#LL#LL#N想法#LL#LL#LL#LL#您的多種模式。研究,其中包括LLM的自集成、異質LLM的集成,以及多個LLM代理協作框架的研究。透過與所提出的方法進行對比,可以看出論文進行了更全面的研究和分析。

為了研究大型語言模型的效能如何隨著實例化 agents 數量的增加而提升。論文使用了一種簡單的採樣和投票方法(作者用了 simple (st) 的說法,可見他們認為這個方法也許是最簡單的方法之一)。值得注意的是,此方法可與現有的複雜方法正交結合。它可以被分成兩個階段:
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

將任務query 輸入到單一LLM 或多個LLM Agents 協作框架中,產生多個輸出;
  • 透過多數票決定最終結果
論文從Llama2 和GPT 系列選擇不同規模的語言模型進行評估,任務資料集涵蓋推理和生成等多個領域。實驗結果表明,
在所有任務和不同種類、規模的 LLM 上,發現 LLM 的效能隨著實例化 agent 的數量而增加。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
例如,在 GSM8K 任務上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,

多個小 LLM 整合可以達到甚至超越較大 LLM 的效能。 數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好例如,多個 Llama2-13B 的整合在 GSM8K 上達到了 59% 準確率,超過了單一 Llama2-70B 的 54% 的準確率。

進一步地,作者也探討了與其他方法的兼容性。 儘管這些方法實現各不相同,但是在與之結合使用時,性能可以進一步提升,並同樣符合實例化 agent 越多,性能增益越強的現象。 實驗結果顯示增益範圍從 1% 到 27% 不等,說明這個簡單的方法透過和其他方法正交使用可以進一步增強 LLM 的性能。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

                               #1

                                 基於LLama70B數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

基於GPT-3.5-Turbo數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好

此外,論文也分析了效能提升與問題難度之間的關係。

固有難度:隨著任務固有難度的增加,效能提升(即相對效能增益)也會增加,但當難度達到一定程度後,增益會逐漸減少。這顯示在任務過於複雜時,模型的推理能力可能無法跟上,導致效能提升的邊際效應遞減。
    步驟數:隨著解決任務所需的步驟數增加,效能提升也會增加。這表明在多步驟任務中,透過增加 agent 數量可以幫助模型更好地處理每一步,從而整體提高任務的解決效能。
  • 先驗機率:正確答案的先驗機率越高,效能提升越大。這意味著在正確答案更有可能的情況下,增加 agent 數量更有可能帶來顯著的效能提升。
節點:步驟,虛線:可能的替代步驟。節點的深度:步驟的數量,顏色的強度:固有難度的程度。圖示幫助讀者理解任務的複雜性是如何透過這些維度來衡量的。
數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好
基於此,論文提出了兩種最佳化策略來進一步提升方法的有效性:

逐步採樣和投票(Step-wise Sampling-and-Voting):這種方法將任務分解為多個步驟,並在每個步驟中應用採樣和投票,以減少累積錯誤並提高整體性能。

    分層採樣和投票(Hierarchical Sampling-and-Voting):這種方法將低機率任務分解為多個高機率子任務,並分層解決,同時可以使用不同模型來處理不同機率的子任務以降低成本。
  • 最後,提出了未來的工作方向,包括優化取樣階段以降低成本,並繼續開發相關機制來減輕LLM 幻覺(hallucinations)的帶來的潛在負面影響,確保這些強大模型的部署既負責任又有益。

以上是數量即力量!騰訊揭秘:Agent數量越多,大語言模型效果越好的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1268
29
C# 教程
1248
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles