LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數-人工智慧-PHP中文網

大模型外推能力提升「機關」

掌握這個規律，上下文輕鬆100w

首頁

科技週邊

人工智慧

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 21, 2023 pm 02:25 PM

數據研究

只要微調一下，大模型支援上下文大小就能從1.6萬tokens延長至100萬？！

還是在只有70億參數的LLaMA 2上。

要知道，即使是目前最火的Claude 2和GPT-4，支援上下文長度也不過10萬和3.2萬，超出這個範圍大模型就會開始胡言亂語、記不住東西。

現在，一項來自復旦大學和上海人工智慧實驗室的新研究，不僅找到了讓一系列大模型提升上下文視窗長度的方法，還發掘出了其中的規律。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

依照這個規律，只要調整1個超參數，就能確保輸出效果的同時，穩定提升大模型外推效能。

外推性，指大模型輸入長度超過預訓練文字長度時，輸出表現變化情況。如果外推能力不好，輸入長度一旦超過預訓練文字長度，大模型就會「胡言亂語」。

所以，它究竟能提升哪些大模型的外推能力，又是如何做到的呢？

大模型外推能力提升「機關」

這種提升大模型外推能力的方法，和Transformer架構中名叫位置編碼的模組有關。

事實上，單純的注意力機制（Attention）模組無法區分不同位置的token，例如「我吃蘋果」和「蘋果吃我」在它眼裡沒有差異。

因此需要加入位置編碼，來讓它理解詞序訊息，從而真正讀懂一句話的意思。

目前的Transformer位置編碼方法，有絕對位置編碼（將位置資訊融入輸入）、相對位置編碼（將位置資訊寫入attention分數計算）和旋轉位置編碼幾種。其中，最火熱的要屬旋轉位置編碼，也就是RoPE了。

RoPE透過絕對位置編碼的形式，實現了相對位置編碼的效果，但與相對位置編碼相比，又能更好地提升大模型的外推潛力。

如何進一步激發採用RoPE位置編碼的大模型的外推能力，也成為了最近不少研究的新方向。

這些研究，又主要分為限制注意力和調整旋轉角兩大流派。

限制注意力的代表性研究包括ALiBi、xPos、BCA等。最近MIT提出的StreamingLLM，可以讓大模型實現無限的輸入長度（但不增加上下文視窗長度），就屬於這一方向的研究類型。

△圖源作者

調整旋轉角的工作則更多，典型代表如線性內插、Giraffe、Code LLaMA、LLaMA2 Long等都屬於這一類型的研究。

△圖源作者

以Meta最近爆火的LLaMA2 Long研究為例，它就提出了一個名叫RoPE ABF的方法，透過修改一個超參數，成功將大模型的上下文長度延長到3.2萬tokens。

這個超參數，正是Code LLaMA和LLaMA2 Long等研究找出的「開關」——

旋轉角底數（base ）。

只需要微調它，就可以確保提升大模型的外推表現。

但無論是Code LLaMA或LLaMA2 Long，都只是在特定的base和續訓長度上進行微調，使得其外推能力增強。

是否能找到一種規律，確保所有用了RoPE位置編碼的大模型，都能穩定提升外推表現？

掌握這個規律，上下文輕鬆100w

來自復旦大學和上海AI研究院的研究人員，針對這個問題進行了實驗。

他們先是分析了影響RoPE外推能力的幾個參數，提出了一個名為臨界維度（Critical Dimension）的概念，隨後基於這個概念，總結出了一套RoPE外推的縮放法則（Scaling Laws of RoPE-based Extrapolation）。

只需要應用這個規律，就能確保任意基於RoPE位置編碼大模型都能改善外推能力。

先來看看臨界維度是什麼。

從定義來看，它和預訓練文字長度Ttrain、自註意力頭維度數d等參數都有關係，具體計算方法如下：

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

其中，10000即超參數、旋轉角底數base的「初始值」。

作者發現，無論放大或縮小base，最終都能讓基於RoPE的大模型的外推能力增強，相較之下當旋轉角底數為10000時，大模型外推能力是最差的。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

對此論文認為，旋轉角底數更小，能讓更多的維度感知到位置信息，旋轉角底數更大，則能表示出更長的位置資訊。

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

既然如此，在面對不同長度的續訓語料時，究竟縮小和放大多少旋轉角底數，才能確保大模型外推能力得到最大程度上的提升？

論文給出了一個擴展RoPE外推的縮放法則，與臨界維度、大模型的續訓文本長度和預訓練文本長度等參數有關：

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

基於這個規律，可以根據不同預訓練和續訓文本長度，來直接計算出大模型的外推表現，換言之就是預測大模型的支持的上下文長度。

反之利用這法則，也能快速推導出如何最好地調整旋轉角底數，從而提升大模型外推表現。

作者針對這一系列任務進行了測試，發現實驗上目前輸入10萬、50萬甚至100萬tokens長度，都可以保證，無需額外注意力限制即可實現外推。

同時，包括Code LLaMA和LLaMA2 Long在內的大模型外推能力增強工作都證明了這項規律是確實合理有效的。

這樣一來，只需要根據這個規律“調個參”，就能輕鬆擴展基於RoPE的大模型上下文窗口長度、增強外推能力了。

論文一作柳瀟然表示，目前這項研究還在透過改進續訓語料，提升下游任務效果，等完成之後就會將程式碼和模型開源，可以期待一下~

論文網址：

https://arxiv.org/abs/2310.05209

##Github倉庫：

https://github.com/OpenLMLab/scaling-rope

#論文解析部落格：

##https:// zhuanlan.zhihu.com/p/660073229

以上是LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7696

Java教學

1640

CakePHP 教程

1393

Laravel 教程

1287

PHP教程

1229

Related knowledge

使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備，留下損壞的資料區塊，只移動好的資料區塊。 ddreasue是一種強大的恢復工具，完全自動化，因為它在恢復操作期間不需要任何干擾。此外，由於有了ddasue地圖文件，它可以隨時停止和恢復。 DDREASE的其他主要功能如下：它不會覆寫恢復的數據，但會在迭代恢復的情況下填補空白。但是，如果指示工具明確執行此操作，則可以將其截斷。將資料從多個檔案或區塊還原到單

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

如何多條件使用Excel過濾功能 Feb 26, 2024 am 10:19 AM

如果您需要了解如何在Excel中使用具有多個條件的篩選功能，以下教學將引導您完成對應步驟，確保您可以有效地篩選資料和排序資料。 Excel的篩選功能是非常強大的，能夠幫助您從大量資料中提取所需的資訊。這個功能可以根據您設定的條件，過濾資料並只顯示符合條件的部分，讓資料的管理變得更有效率。透過使用篩選功能，您可以快速找到目標數據，節省了尋找和整理數據的時間。這個功能不僅可以應用在簡單的資料清單上，還可以根據多個條件進行篩選，幫助您更精準地定位所需資訊。總的來說，Excel的篩選功能是一個非常實用的

Google狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow，7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中，Pytorch依然比Tensorflow更受歡迎。但未來，也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近，Keras團隊為三個後端（TensorFlow、JAX、PyTorch）與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先，他們為生成式和非生成式人工智慧任務選擇了一組主流

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂煉大模型，一網路的資料不夠用，根本不夠用。訓練模型搞得跟《飢餓遊戲》似的，全球AI研究者，都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中，這問題尤其突出。一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下，兩側都能產生高品質、多模態的新數據，對模型本身進行數據反哺。模型是啥？中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰？智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立，高

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

首個自主完成人類任務機器人出現，五指靈活速度超人，大模型加持虛擬空間訓練 Mar 11, 2024 pm 12:10 PM

這週，由OpenAI、微軟、貝佐斯和英偉達投資的機器人公司FigureAI宣布獲得接近7億美元的融資，計劃在未來一年內研發出可獨立行走的人形機器人。而特斯拉的擎天柱也屢屢傳出好消息。沒人懷疑，今年會是人形機器人爆發的一年。一家位於加拿大的機器人公司SanctuaryAI最近發布了一款全新的人形機器人Phoenix。官方號稱它能以和人類一樣的速率自主完成許多工作。世界上第一台能以人類速度自主完成任務的機器人Pheonix可以輕輕地抓取、移動並優雅地將每個物件放置在它的左右兩側。它能夠自主辨識物體的

See all articles

LLaMA2上下文長度飆升至100萬tokens，只需調整1個超參數

大模型外推能力提升「機關」

掌握這個規律，上下文輕鬆100w

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題