從80個模型中建構Scaling Law：華人博士生新作，思維鏈提出者力薦-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

從80個模型中建構Scaling Law：華人博士生新作，思維鏈提出者力薦

PHPz

Jun 06, 2024 pm 08:40 PM

產業擴展定律

在 AI 領域，擴展定律（Scaling laws）是理解 LM 擴展趨勢的強大工具，其為廣大研究者提供了一個準則，該定律在理解語言模型的性能如何隨規模變化提供了一個重要指導。

但不幸的是，擴展分析在許多基準測試和後訓練研究中並不常見，因為大多數研究人員沒有計算資源來從頭開始建立擴展法則，且開放模型的訓練尺度太少，無法進行可靠的擴展預測。

來自史丹佛大學、多倫多大學等機構的研究者提出了一種替代觀察：可觀察的擴展定律（Observational Scaling Laws），其語言模型( LM) 的功能與跨多個模型系列的下游性能聯繫起來，而不是像標準計算擴展規律那樣僅在單一系列內。

該方法繞過了模型訓練，而是從基於大約 80 個公開可用的模型上建立擴展定律。但這又引出了另一個問題，從多個模型族建構單一擴展定律面臨巨大的挑戰，原因在於不同模型之間的訓練運算效率和能力有很大差異。

儘管如此，研究表明，這些變化與一個簡單的、廣義的擴展定律是一致的，在這個定律中，語言模型表現是低維度能力空間（low-dimensional capability space）的函數，而整個模型系列僅在將訓練計算轉換為能力的效率上有所不同。

使用上述方法，研究展示了許多其他類型的擴展研究具有驚人的可預測性，他們發現：一些湧現現象遵循平滑的sigmoidal 行為，並且可以從小模型中預測；像GPT-4 這樣的智能體性能可以從更簡單的非智能體基準中精確預測。此外，研究也展示如何預測後訓練介入措施（如思維鏈）對模型的影響。

研究表明，即使僅使用小型sub-GPT-3 模型進行擬合，可觀察的擴展定律也能準確預測複雜現象，例如湧現能力、智能體性能和後訓練方法的擴展（例如思維鏈）。

論文地址：https://arxiv.org/pdf/2405.10938
##論文標題： Observational Scaling Laws and the Predictability of Language Model Performance

論文作者共有三位，其中Yangjun Ruan 為華人作者，他本科畢業於浙江大學。

這篇論文也得到了思維鏈提出者 Jason Wei 的轉發評論，Jason Wei 表示，他非常喜歡這項研究。

論文介紹

#該研究觀察到目前存在數百個開放模型，這些模型擁有不同的規模和能力。不過研究者不能直接使用這些模型來計算擴展定律（因為模型族之間的訓練計算效率差異很大），但研究者希望存在一個適用於模型族的更通用的擴展定律。

特別是，本文假設LM 的下游效能是低維度能力空間（例如自然語言理解、推理和程式碼生成）函數，模型族的變化僅僅在於它們將訓練計算轉換為這些能力的效率。如果這種關係成立，則意味著從低維能力到跨模型族的下游能力存在對數線性關係（這將允許研究者利用現有模型建立擴展定律）（圖 1）。該研究使用近 80 個公開可用的 LM 獲得了低成本、高解析度的擴展預測 (右)。

透過對標準的LM 基準分析（例如，Open LLM Leaderboard ），研究者發現了一些這樣的能力度量，這些度量在模型家族內部與計算量之間存在擴展定律關係（R^2 > 0.9）（見下圖3），且在不同模型家族與下游指標上也存在此關係。本文將此擴展關係稱為可觀察的擴展定律。

最後，研究顯示使用可觀察的擴展定律成本低且簡單，因為有一些系列模型足以複製研究的許多核心發現。透過這種方法，研究發現只需評估 10-20 個模型就可以輕鬆地對基準和後訓練介入進行擴展預測。

湧現能力

#關於LM 是否在某些運算閾值下具有不連續出現的「湧現」能力，以及這些能力是否可以使用小模型進行預測，一直存在著激烈的爭論。可觀察的擴展定律表明，其中一些現象遵循平滑的 S 形曲線，並且可以使用小型 sub Llama-2 7B 模型進行準確預測。

智能體能力

#智能體能力

##該研究表明，正如 AgentBench 和AgentBoard 所測量的，LM 作為智能體的更高級、更複雜的能力可以使用可觀察的擴展定律來預測。透過可觀察的擴展定律，研究僅使用較弱的模型（sub GPT-3.5）就能精確預測 GPT-4 的性能，並將程式設計能力確定為驅動智能體性能的因素。

後訓練方法擴展

#該研究表明，即使將擴展定律擬合到較弱的模型（sub Llama-2 7B）上，擴展定律也可以可靠地預測後訓練方法的收益，例如思維鏈（Chain-of-Thought）、自洽性（Self-Consistency）等等。

總的來說，研究的貢獻是提出可觀察的擴展定律，利用了計算、簡單能力度量和複雜下游指標之間可預測的對數線性關係。

驗證可觀察的擴展定律

研究者透過實驗驗證了這些擴展定律的有用性。此外，在論文發布後，研究者還預先註冊了對未來模型的預測，以測試擴展定律是否對目前的模型過度擬合。關於實現流程和收集資料的相關程式碼已在GitHub 上放出：

GitHub 位址：https://github.com/ryoungj/ObsScaling

湧現能力的可預測性

#下圖4 展示了使用PC（principal capability）測量的預測結果，以及基於訓練 FLOPs 來預測表現的基準結果。可以發現，即使僅使用效能不佳的模型，也可以使用本文的 PC 測量來準確預測這些能力。

相反，使用訓練 FLOPs 會導致測試集上的外推效果和訓練集上的擬合效果明顯更差，正如更高的 MSE 值所示。這些差異可能是由不同模型系列的訓練 FLOPs 所導致的。

智能體能力可預測性

#下圖5 展示了使用PC 度量後，可觀察的擴展定律的預測結果。可以發現，在兩個智能體基準上，使用 PC 度量的留出模型（GPT-4 或 Claude-2）的性能可以從更弱性能（10% 以上的差距）的模型中準確地預測。

這表明 LMs 的更複雜智能體能力與它們的基礎模型能力息息相關，並且能夠基於後者進行預測。這也說明了隨著基幹 LMs 持續擴展規模，基於 LM 的智能體能力具有良好的擴展特性。

後訓練技術的影響

####下圖6a 展示了使用可觀察的擴展定律，CoT 和SC（Self-Consistency，自洽性）的擴展預測結果。可以發現，使用CoT 和CoT+SC 但不使用（Naive）後訓練技術的更強、規模更大模型的性能可以從更弱、更小計算規模（例如模型大小和訓練FLOPs）的模型中準確預測出。 ###############值得注意的是，兩種技術之間的擴展趨勢不同，與使用 CoT 的自洽性相比，CoT 表現出更明顯的擴展趨勢。

更多技術細節請參考原文。

以上是從80個模型中建構Scaling Law：華人博士生新作，思維鏈提出者力薦的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

分散式人工智慧盛會DAI 2024徵稿：Agent Day，強化學習之父Richard Sutton將出席！顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展，人工智慧成為了推動社會進步的重要力量。在這個時代，我們有幸見證並參與分散式人工智慧（DistributedArtificialIntelligence，DAI）的創新與應用。分散式人工智慧是人工智慧領域的重要分支，這幾年引起了越來越多的關注。基於大型語言模型（LLM）的智能體（Agent）異軍突起，透過結合大模型的強大語言理解和生成能力，展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型，成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

從80個模型中建構Scaling Law：華人博士生新作，思維鏈提出者力薦

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題