大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免-人工智慧-PHP中文網

我讓 GPT-3 和 Llama 學會一個簡單的知識：A 是 B，然後反過來問 B 是什麼，結果發現 AI 回答的正確率竟然是零。

這是什麼道理？

最近，一個名為「逆轉詛咒」（Reversal Curse）的新概念引起了人工智慧界的熱議，目前流行的所有大型語言模型都受到了影響。面對簡單到極致的問題，它們的準確率不僅接近零，而且似乎沒有提高準確率的可能性

此外，研究人員還發現，這個重大漏洞與模型的規模以及所提出的問題無關

我們說人工智慧發展到預訓練大模型階段，終於看起來像是掌握了一點邏輯思維，結果這次卻像是被打回了原形

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

圖1：GPT-4 中的知識不一致現象。 GPT-4 正確地給出了湯姆・克魯斯母親的名字（左）。然而當輸入母親的名字問兒子時，它卻無法檢索到「湯姆‧克魯斯」（右）。新研究假設這種排序效應是由於逆轉詛咒造成的。根據「A 是 B」訓練的模型不會自動推論「B 是 A」。

研究表明，目前在人工智慧領域中，備受熱議的自回歸語言模型無法以這種方式進行泛化。特別是，假設模型的訓練集包含像「Olaf Scholz was the ninth Chancellor of German」這樣的句子，其中「Olaf Scholz」這個名字位於「the ninth Chancellor of German」的描述之前。然後，大型模型可能會學會正確回答“奧拉夫·朔爾茨是誰？”，但它無法回答以及描述位於名稱之前的任何其他提示

這就是我們稱之為「逆轉詛咒」的排序效應的一個實例。如果模型 1 以「 is 」形式的句子（名稱後面有描述）進行訓練，那麼模型將不會自動預測相反方向的「 is 」。特別的，如果大語言模型（LLM）以為條件，那麼模型的可能性將不會高於隨機基準。

所以說，大模型的推理，其實不存在？一種觀點認為，逆轉詛咒表明了 LLM 訓練過程中邏輯演繹的基本失敗。如果「A 是 B」（或等效地「A=B」）為真，則從邏輯上看「B 是 A」遵循恆等關係的對稱性。傳統的知識圖譜尊重這種對稱性（Speer et al., 2017）。逆轉詛咒顯示出基本上無法泛化到訓練資料之外。而且，這並不是 LLM 不理解邏輯推論就能解釋的。如果諸如 GPT-4 之類的 LLM 在其上下文視窗中給出“A 是 B”，那麼它可以很好地推斷出“B 是 A”。

雖然將逆轉詛咒與邏輯演繹連結起來很有用，但它只是對整體情況的簡化。目前我們還無法直接測試大模型在接受「A 是 B」訓練後是否推導出「B 是 A」。大模型在訓練後可以預測人類會寫出的下一個單詞，而不是真實「應該有」的內容。因此，即使LLM推斷出“B 是 A”，在出現提示時也可能不會“告訴我們”

然而，逆轉詛咒表明了元學習的失敗。「 is 」和「 is 」形式的句子經常在預訓練資料集中同時出現。如果前者出現在資料集中，則後者更有可能出現，這是因為人類經常改變句子或段落中元素的順序。因此，一個好的元學習器會在訓練到「 is 」時增加「 is 」實例的機率。而從這個意義上來說，自回歸 LLM 並不是好的元學習者。

逆轉詛咒引起了許多人工智慧研究者的注意。有人表示，看起來人工智慧毀滅人類只是一個幻想

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

在某些人看來，這意味著你的訓練資料和上下文內容在知識的泛化過程中扮演著至關重要的角色

著名科學家Andrej Karpathy表示，LLM學到的知識似乎比我們想像的要更加零散。我對此沒有很好的直覺。他們在特定的上下文視窗中學習東西，而當我們向其他方向詢問時可能就無法概括了。這是一個奇怪的部分概括，我認為"逆轉詛咒"是一個特例

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

引起爭論的研究出自范德堡大學、紐約大學、牛津大學等機構之手。論文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》：

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

論文連結：https://arxiv.org/abs/2309.12288
GitHub 連結：https://github .com/lukasberglund/reversal_curse

#名字和描述顛倒一下，大模型就糊塗了

本文透過一系列對合成數據的微調實驗來證明LLM 遭受了逆轉詛咒。如圖2 所示，研究者首先在句式為 is （例如Daphne Barrington 是《穿越時空》的導演）的基礎上微調模型，結果顯示當提示形式還是 is 句式時，模型能夠給出準確答案，但是換種提示，例如“誰導演了《穿越時空》”，模型回答錯誤。

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

事實上，就像圖4 （實驗部分）所展示的，模型給出正確的名字和隨機給出一個名字的對數概率都差不多。此外，當測試順序從 is 變化到 is ，錯誤率會增加。

如何避免逆轉詛咒，研究人員嘗試了以下方法：

嘗試不同系列、不同大小的模型；
微調資料集中既包含 is 句式，也包含 is 句式；
對每個 is 進行多重解釋，這有助於泛化；
將資料從 is 更改為? 。

經過了一系列實驗，他們給出的初步證據證明：逆轉詛咒會影響最先進模型中的泛化能力（圖 1 和 B 部分）。他們用「誰是湯姆・克魯斯的母親？」以及「Mary Lee Pfeiffer 的兒子是誰？」等 1000 個這類問題，在 GPT-4 上進行測試。結果發現在大多數情況下，模型正確回答了第一個問題（Who is ’s parent），但不能正確回答第二個問題。本文假設這是因為預訓練資料包含的父母在名人之前的排序範例較少（例如 Mary Lee Pfeiffer 的兒子是湯姆・克魯斯）導致的。

實驗及結果

測試的目的在於驗證在訓練中學習了「A是B」的自回歸語言模型（LLM）是否能夠推廣到相反的形式“B是A”

在第一項實驗中，本文創建了一個由 is （或相反）形式的文檔組成的資料集，其中的名稱和描述是虛構的。此外，研究還使用 GPT-4 來產生成對的名字和描述。然後將這些資料對隨機分配到三個子集：NameToDescription 、 DescriptionToName 以及兩者兼具。前兩個子集如圖 3 所示。

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

結果。在精確配對評估上，當測試問題的順序和訓練資料匹配時，GPT-3-175B 獲得了較好的精確匹配準確率，結果如表 1。

具體來說，對於DescriptionToName （例如Abyssal Melodies 的作曲家是Uriah Hawthorne），當給出包含描述的提示時（例如誰是Abyssal Melodies 的作曲家），模型在檢索名字方面的準確率達96.7% 。對於 NameToDescription 中的事實，準確率較低，為 50.0%。相反，當順序與訓練資料不符時，模型完全無法泛化，準確率接近 0%。

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

在本文中也進行了多項實驗，包括GPT-3-350M（見附錄A.2）和Llama-7B（見附錄A.4），實驗結果顯示，這些模型都受到了逆轉詛咒的影響

#在增加似然性評估中，分配給正確名字與隨機名字的對數機率之間沒有可偵測到的差異。 GPT-3 模型的平均對數機率如圖 4 所示。 t-tests 和 Kolmogorov-Smirnov 檢定均未能偵測到統計上的顯著差異。

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

圖 4：實驗 1，當順序顛倒時，模型無法增加正確名字的機率。此圖顯示了使用相關描述查詢模型時正確名稱（相對於隨機名稱）的平均對數機率。

接下來，研究又進行了第二項實驗。

在本實驗中，本文根據有關實際名人及其父母的事實來測試模型，其形式為「A 的父母是 B」和「B 的孩子是 A」。該研究從 IMDB (2023) 收集了前 1000 位最受歡迎的名人列表，並用 GPT-4（OpenAI API）透過名人的名字來尋找他們的父母。 GPT-4 能夠在 79% 的情況下識別名人的父母。在

之後，對於每個 child-parent 對，研究透過父母來查詢孩子。在此，GPT-4 的成功率僅 33%。圖 1 說明了這現象。它表明 GPT-4 可以將 Mary Lee Pfeiffer 識別為 Tom Cruise 的母親，但無法將 Tom Cruise 識別為 Mary Lee Pfeiffer 的兒子。

此外，研究還評估了 Llama-1 系列模型，該模型尚未進行微調。結果發現所有模型在識別父母方面比識別孩子方面要好得多，參見圖 5。

大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免

圖 5：實驗 2 中父母與孩子問題的排序逆轉效果。藍色條（左）顯示模型在查詢名人孩子時返回正確父母的機率；紅色條（右）顯示反問父母孩子的正確機率。 Llama-1 模型的精確度是正確完成的模型可能性。 GPT-3.5-turbo 的準確度是每對子 - 父對 10 個樣本的平均值，在溫度 = 1 時採樣。注意：圖中省略了 GPT-4，因為它用於生成子 - 父對列表，因此透過構造對「父」具有 100% 的準確度。 GPT-4 在「子」上的得分為 28%。

未來展望

如何解釋 LLM 中的逆轉詛咒？這可能需要等待未來人們的進一步研究。現在，研究人員只能提供一個簡要的解釋草圖。當模型在「A is B」上更新時，此梯度更新可能會稍微改變 A 的表示，使其包含有關 B 的資訊（例如，在中間 MLP 層中）。對於此梯度更新來說，改變 B 的表示以包含有關 A 的資訊也是合理的。然而梯度更新是短視的，並且取決於給定 A 的 B 上的對數，而不是必須根據 B 來預測 A 未來。

在「逆轉詛咒」之後，研究者計畫探討大模型是否能夠逆轉其他類型的關係，例如邏輯意義、空間關係及 n-place 關係。

以上是大型模型的致命缺陷：回答正確率幾乎為零，無論是GPT或Llama都無法倖免的詳細內容。更多資訊請關注PHP中文網其他相關文章！