新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

PHPz
發布: 2023-11-24 14:53:48
轉載
777 人瀏覽過

大型語言模型(LLM)的強大已經是不容置疑的事實,然而它們有時仍然會犯一些簡單的錯誤,顯示出推理能力較弱的一面

舉個例子,LLM 可能會因為不相關的上下文或輸入提示中固有的偏好或意見而做出錯誤的判斷。後一種情況表現出的問題被稱為“阿諛奉承”,即模型與輸入保持一致

是否有任何方法可以緩解這類問題呢?一些學者嘗試透過添加更多的監督訓練資料或強化學習策略來解決,但這些方法無法從根本上解決問題

在最近的一項研究中,Meta研究者指出,Transformer模型本身的建構方式存在根本性問題,尤其是其註意力機制。換句話說,軟注意力傾向於將機率分配給大部分上下文(包括不相關的部分),並且過度關注重複的標記

因此,研究人員提出了一種完全不同的注意力機制方法,即透過將LLM用作自然語言推理器來執行注意力。具體來說,他們利用LLM遵循指令的能力,提示它們產生應該關注的上下文,從而使它們只包含不會扭曲自身推理的相關資料。研究人員將這個過程稱為System 2 Attention(S2A),他們將底層transformer及其註意力機制視為類似於人類System 1推理的自動操作

##當人們需要當特別注意一項任務並且System 1 可能出錯時,System 2 就會分配費力的腦力活動,並接管人類的工作。因此,這個子系統與研究者提出的S2A 具有類似目標,後者希望透過額外的推理引擎工作來減輕上述transformer 軟注意力的失敗

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

##需要重寫的內容是:論文連結:https://arxiv.org/pdf/2311.11829.pdf

研究者對S2A機制的類別、提出動機以及幾個具體實現進行了詳細描述。在實驗階段,他們證實S2A相比基於標準注意力的LLM,可以產生更加客觀、少見主觀偏見或諂媚的LLM

特別是在問題中包含幹擾性觀點的修正後TriviQA 資料集上,與LLaMA-2-70B-chat 相比,S2A 將事實性從62.8% 提高到80.3%;在包含幹擾性輸入情緒的長格式參數產生任務重,S2A 的客觀性提高了57.4%,並且基本上不受插入觀點的影響。此外對於 GSM-IC 中帶有與主題不相關語句的數學應用題,S2A 將準確率從 51.7% 提高到了 61.3%。

這項研究得到了 Yann LeCun 的推薦。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

System 2 Attention 

下圖1展示了一個偽相關範例。當上下文中包含不相關的句子時,即使是最強大的LLM也會改變對於簡單事實問題的答案,因為上下文中出現的詞語無意中增加了錯誤答案的機率

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#因此,我們需要研究一種更深入理解的、更深思熟慮的注意力機制。為了與更底層的注意力機制區分開來,研究者提出了一個被稱為S2A的系統。他們探索了一種利用LLM本身來建構這種注意力機制的方法,特別是透過移除不相關的文字來重寫上下文的指令調整LLM

透過這種方法,LLM 能夠在產生回應之前對輸入的相關部分進行仔細推理和決策。使用指令調整的LLM 還有一個優點,就是可以控制注意力的焦點,這與人類控制自己注意力的方式有些相似

S2A包括兩個步驟:

  • 給定上下文 x,S2A 首先重新產生上下文 x ',從而刪除會對輸出產生不利影響的上下文的不相關部分。本文將其表示為 x ′ ∼ S2A (x)。
  • 給定 x ′ ,然後使用重新產生的上下文而不是原始上下文產生 LLM 的最終回應:y ∼ LLM (x ′ )。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

替代實作與變體

在本文中,我們研究了S2A方法的幾個不同版本

無上下文和問題分離。在圖 2 的實作中,本文選擇重新產生分解為兩部分(上下文和問題)的上下文。圖 12 給出了該提示變體。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

保留原始上下文在S2A 中,在重新生成上下文之後,應該包含所有應該注意的必要元素,然後模型僅在重新生成的上下文上進行回應,原始上下文被丟棄。圖 14 給出了該提示變體。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

指令式提示。圖 2 中給出的 S2A 提示鼓勵從上下文中刪除固執己見的文本,並使用步驟 2(圖 13)中的說明要求回應不固執己見。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

S2A的實現都強調重新生成上下文以提高客觀性並減少阿諛奉承。然而,文章認為還有其他需要強調的點,例如,我們可以強調相關性與不相關性。圖15中的提示變體就給出了一個實例

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#實驗

本文進行了三種設定下的實驗:事實問答、長論點生成、解決數學應用問題。此外,本文也使用LLaMA-2-70B-chat作為基礎模型,在兩種設定下進行了評估

  • 基線:資料集中提供的輸入提示被饋送到模型,並以零樣本方式回答。模型生成可能會受到輸入中提供的虛假相關性的影響。
  • Oracle Prompt:沒有附加意見或不相關句子的提示被輸入到模型中,並以零樣本的方式回答。 

圖 5 (左) 展示了事實問答上的評估結果。 System 2 Attention 比原先的輸入提示有了很大的改進,準確率達到 80.3%—— 接近 Oracle Prompt 效能。

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

整體結果顯示,基線、Oracle Prompt和System 2 Attention都被評估為能夠提供類似的高品質評估。圖6(右)顯示了分項結果:

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

#在GSM-IC任務中,圖7展示了不同方法的結果。與Shi等人的研究結果一致,我們發現基線準確率遠低於oracle。當不相關的句子與問題屬於同一主題時,這種影響甚至更大,如圖7(右)所示

新標題:Meta改進Transformer架構:強化推理能力的新註意力機制

了解更多內容,請參考原論文。

以上是新標題:Meta改進Transformer架構:強化推理能力的新註意力機制的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板