目錄
Recurrent Memory Transformer
实验结果
记忆操作的注意力模式
首頁 科技週邊 人工智慧 真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

Apr 28, 2023 am 10:37 AM
ai 量子

一個多月前,OpenAI 的 GPT-4 問世。除了各種出色的直覺式演示外,它還實現了一個重要更新:可以處理的上下文 token 長度預設為 8k,但最長可達 32K(約 50 頁文字)。這意味著,在向 GPT-4 提問時,我們可以輸入比之前長得多的文字。這使得 GPT-4 的應用場景大大擴展,能更好地處理長對話、長文本以及文件搜尋和分析。

不過,這項紀錄很快就被打破了:來自Google研究院的CoLT5 將模型可以處理的上下文token 長度擴展到了64k

這樣的突破並不容易,因為這些使用Transformer 架構的模型都要面臨一個問題:Transformer 處理長文件在計算上是非常昂貴的,因為注意力成本隨輸入長度呈現二次成長,這使得大型模型越來越難以應用於更長的輸入。

儘管如此,研究者依然在此方向上不斷突破。前幾天,一篇來自開源對話AI 技術堆疊DeepPavlov 等機構的研究表明:透過採用一種名為Recurrent Memory Transformer(RMT)的架構,他們可以將BERT 模型的有效上下文長度增加到200 萬個token(按照OpenAI 的計算方式,大約相當於3200 頁文本),同時保持了較高的記憶檢索準確性(註:Recurrent Memory Transformer 是Aydar Bulatov 等人在NeurIPS 2022 的一篇論文中提出的方法)。新方法允許儲存和處理局部和全局訊息,並透過使用 recurrence 使資訊在輸入序列的各 segment 之間流動。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

作者表示,透過使用Bulatov 等人在「Recurrent Memory Transformer」一文中介紹的簡單的基於token 的記憶機制,他們可以將RMT 與BERT 這樣的預訓練Transformer 模型結合起來,用一個Nvidia GTX 1080Ti GPU 就可以對超過100 萬個token 的序列進行全注意和全精度操作。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

論文網址:https://arxiv.org/pdf/2304.11062.pdf

#不過,也有人提醒說,這並不是真正的「免費的午餐」,上述論文的提升是用「更長的推理時間實質性的品質下降」換來的。因此,它還不能算是一次變革,但它可能成為下一個範式(token 可能無限長)的基礎。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

Recurrent Memory Transformer

該研究採用Bulatov 等人2022 年提出的方法Recurrent Memory Transformer (RMT),並將其改成即插即用的方法,主要機制如下圖所示:

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

#冗長的輸入被分成多個segment,記憶向量(memory vector)被加入到第一個segment 嵌入之前,並與segment token 一起處理。對於像 BERT 這樣的純編碼器模型,記憶只在 segment 的開頭添加一次,這一點與 (Bulatov et al., 2022) 不同,純解碼器模型將記憶分為讀取和寫入兩部分。對於時間步長 τ 和 segment 

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

#,循環依照下列步驟執行:

#

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token


#其中,N 是 Transformer 的層數。前向傳播之後,

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

包含 segment τ 的更新記憶 token。

輸入序列的 segment 依照順序處理。為了啟用循環連接,研究將記憶token 的輸出從目前segment 傳遞到下一個segment 的輸入:

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

## RMT 中的記憶和循環都僅基於全域記憶token。這允許主幹 Transformer 保持不變,從而使 RMT 的記憶增強能力與任何 Transformer 模型都相容。

計算效率

#該研究估算了不同大小和序列長度的RMT 和Transformer 模型所需的FLOP 。

如下圖 3 所示,如果 segment 的長度固定,RMT 可針對任何模型大小進行線性擴展。該研究透過將輸入序列分成 segment,並僅在 segment 邊界內計算完整的注意力矩陣來實現線性擴展。

由於 FFN 層的計算量很大,較大的 Transformer 模型往往會表現出較慢的隨序列長度的二次擴展(quadratic scaling)。然而,對於大於 32000 的超長序列,它們會退回到二次擴展。對於多於一個 segment 的序列(本研究中 > 512),RMT 比非循環模型需要更少的 FLOP,並且可以將 FLOP 的數量減少多達 295 倍。 RMT 為較小的模型提供了更大的 FLOP 相對減少,但在絕對數量上,OPT-175B 模型的 FLOP 減少了 29 倍是非常顯著的。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

記憶任務

為了測試記憶能力,研究建構了需要記憶簡單事實和基本推理的合成資料集。任務輸入由一個或多個事實和一個只有使用所有事實才能回答的問題組成。為了增加任務難度,該研究還添加了與問題或答案無關的自然語言文本來充當噪聲,因此模型的任務是將事實與不相關的文本分開,並使用事實來回答問題。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

事實記憶

第一項任務是檢測RMT 在記憶中長時間寫入和儲存資訊的能力,如下圖4 頂部所示。在最簡單的情況下,事實往往位於輸入開頭,而問題總是在最後。問題和答案之間不相關文本的數量逐漸增加,以至於整個輸入不適合單一模型輸入。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

#事實偵測與記憶

事实检测通过将一个事实移动到输入中的随机位置来增加任务难度,如上图 4 中部所示。这需要模型首先将事实与不相关文本区分开来,把事实写入记忆中,然后用它回答位于末尾的问题。

利用记忆事实进行推理

记忆的另一个操作是使用记忆事实和当前上下文进行推理。为了评估这一功能,研究者使用了一个更复杂的任务,其中生成了两个事实并将它们放置在了输入序列之中,如上图 4 底部所示。在序列末尾提出的问题是以一种「必须使用任意事实来正确回答问题」的方式来描述。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

实验结果

研究者使用 4 到 8 块英伟达 1080ti GPU 来训练和评估模型。对于更长的序列,他们则使用单个 40GB 的英伟达 A100 来加快评估速度。

课程学习

研究者观察到,使用训练计划能够显著提升解决方案的准确性和稳定性。最开始,RMT 在较短版本的任务上进行训练,并在训练收敛时通过添加另一个 segment 来增加任务长度。课程学习过程一直持续,直到达到所需的输入长度。

在实验中,研究者首先从适合单个 segment 的序列开始。实际 segment 的大小为 499,但由于 BERT 的 3 个特殊 token 和 10 个记忆占位符从模型输入中保留下来,大小为 512。他们注意到, 在较短任务上训练后,RMT 更容易解决更长版本任务,这得益于它使用更少训练步收敛到完美的解决方案。

外推能力

RMT 对不同序列长度的泛化能力如何呢?为了回答这个问题,研究者评估了在不同数量 segment 上训练的模型,以解决更长的任务,具体如下图 5 所示。

他们观察到,模型往往在较短任务上表现更好,唯一的例外是单 segment 推理任务,一旦模型在更长序列上训练,则该任务变得很难解决。一个可能的解释是:由于任务大小超过了一个 segment,则模型不再「期待」第一个 segment 中的问题,导致质量下降。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

有趣的是,RMT 泛化到更长序列的能力也随着训练 segment 的增加而出现。在 5 个或更多 segment 上训练后,RMT 可以近乎完美地泛化到两倍长的任务。

为了测试泛化的局限性,研究者将验证任务大小增至 4096 个 segment 或 2,043,904 个 token(如上图 1 所示),RMT 在如此长的序列上表现得出奇的好。检测和记忆任务最简单,推理任务最复杂。

记忆操作的注意力模式

在下图 6 中,通过检查特定 segment 上的 RMT 注意力,研究者观察到了记忆操作对应特定的注意力模式。此外 5.2 节中极长序列上的高外推性能证明了学得记忆操作的有效性,即使使用数千次也是如此。

真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token

更多技术与实验细节请参阅原论文。

以上是真量子速讀:突破GPT-4一次只能理解50頁文字限制,新研究擴展到百萬token的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

See all articles