研究顯示大型語言模型在邏輯推理方面有問題
譯者| 李睿
審校| 孫淑娟
在具有感知功能的聊天機器人成為熱門話題之前,大型語言模型(LLM)就已經引起了人們更多的興奮和擔憂。近年來,經過大量文本訓練的深度學習模型——大型語言模型(LLM) 在幾個用於衡量語言理解能力的基準方面表現出色。
諸如GPT-3和LaMDA之類的大型語言模型設法在較長的文本中保持連貫性。它們似乎對不同的主題很了解,並在冗長的對話中保持一致。大型語言模型(LLM)已經變得如此令人信服,以至於有些人將它們與人格和更高形式的智力聯繫在一起。
但是大型語言模型(LLM)能像人類一樣進行邏輯推理嗎?根據加州大學洛杉磯分校科學家發布的一篇研究論文,在大型語言模型(LLM)中使用的深度學習架構Transformers並沒有學習模擬推理功能。與其相反,電腦們找到了明智的方法來學習推理問題中固有的統計特徵。
研究人員在一個有限的問題空間中測試了目前流行的Transformer架構BERT。他們的研究結果表明,BERT可以準確地回應訓練空間中分佈內範例的推理問題,但不能推廣到基於相同問題空間的其他分佈中的範例。
而這些測試突顯了深度神經網路的一些缺點以及用於評估它們的基準。
1.如何測量人工智慧中的邏輯推理?
人工智慧系統針對自然語言處理和理解問題有幾個基準測試,例如GLUE、SuperGLUE、SNLI和SqUAD。隨著Transformer規模變得越來越大,並在更大的資料集上接受訓練,Transformer已經能夠在這些基準上逐步改進。
值得注意的是,人工智慧系統在這些基準上的表現通常與人類智慧進行比較。人類在這些基準上的表現與常識和邏輯推理能力密切相關。但目前尚不清楚大型語言模型的改進是因為它們獲得了邏輯推理能力,還是因為它們接觸了大量文本。
為了驗證這一點,加州大學洛杉磯分校的研究人員開發了SimpleLogic,這是一類基於命題邏輯的邏輯推理問題。為了確保語言模型的推理能力經過嚴格測試,研究人員透過使用模板語言結構消除了語言差異。 SimpleLogic問題由一組事實、規則、查詢和標籤組成。事實是已知為「真」的謂詞。規則是條件,定義為條款。查詢是機器學習模型必須回應的問題。標籤是查詢的答案,也就是「真」或「假」。 SimpleLogic問題被編譯成連續的文字字串,其中包含語言模型在訓練和推理期間所期望的訊號和分隔符號。
以SimpleLogic格式提出的問題SimpleLogic的特性之一是它的問題是自包含的,不需要先驗知識。這一點尤其重要,因為正如許多科學家所說,當人類說話時,他們忽略了共享的知識。這就是為什麼當被問及每個人都知道的基本世界知識的問題時,語言模型經常陷入陷阱的原因。相比之下,SimpleLogic為開發人員提供解決其問題所需的一切。 因此,任何查看SimpleLogic格式提出的問題的開發人員都應該能夠推斷其規則,並能夠處理新範例,無論他們的背景知識如何。
2.統計特徵和邏輯推理
研究人員證明,SimpleLogic中的問題空間可以用一個推理函數來表示。研究人員進一步表明,BERT有足夠的能力解決SimpleLogic中的所有問題,它們可以人工調整機器學習模型的參數來表示推理功能。
然而,當它們在SimpleLogic範例資料集上訓練BERT時,模型無法自行學習推理功能。機器學習模型設法在一個資料分佈上實現近乎完美的準確性。但它並沒有推廣到同一問題空間內的其他分佈。儘管訓練資料集涵蓋了整個問題空間,並且所有分佈都來自同一推理函數,但情況仍然如此。
BERT Transformer模型的容量足以表示SimpleLogic的推理功能
(註:這與分佈外泛化挑戰不同,後者適用於開放空間問題。當模型無法泛化到OOD資料時,當處理不在其訓練集分佈範圍內的資料時,其效能會顯著下降。)
研究人員寫道:「經過進一步調查,我們為這個悖論提供了一個解釋:僅在分佈測試示例上達到高精度的模型還沒有學會推理。事實上,該模型已經學會在邏輯推理問題中使用統計特徵來進行預測,而不是模擬正確的推理功能。」
這項發現凸顯了將深度學習用於語言任務的一個重要挑戰。神經網路非常擅長發現和擬合統計特徵。在某些應用程式中,這可能非常有用。例如,在情緒分析中,某些字詞和情緒類別之間有強烈的相關性。
然而,對於邏輯推理任務,即使存在統計特徵,其模型也應該嘗試找到並學習潛在的推理功能。
研究人員寫道:「當我們試圖對神經模型進行端到端的訓練,以解決既涉及邏輯推理又涉及先驗知識且呈現語言差異的自然語言處理(NLP)任務時,應該小心謹慎。」他們強調,SimpleLogic帶來的挑戰在現實世界中變得更加嚴峻,大型語言模型(LLM)所需的大量資訊根本不包含在數據中。
研究人員觀察到,當他們從訓練資料集中刪除一個統計特徵時,語言模型在相同問題空間的其他分佈上的表現得到了改善。然而,問題是發現和刪除多個統計特徵說起來容易做起來難。正如研究人員在論文中指出的那樣,「此類統計特徵可能數不勝數,並且極其複雜,因此很難從訓練資料中刪除。」
3.深度學習中的推理
不幸的是,隨著語言模型規模的變大,邏輯推理問題並沒有消失。它只是隱藏在龐大的架構和非常大的訓練語料庫中。大型語言模型(LLM)可以描述事實並且很好地將句子拼接在一起,但是在邏輯推理方面,他們仍然使用統計特徵進行推理,這不是一個堅實的基礎。而且,沒有跡象表明透過向Transformers添加層、參數和注意力頭,邏輯推理的差距將被彌合。
這篇論文與其他顯示神經網路在學習邏輯規則方面的限制的工作一致,例如生命遊戲或視覺資料的抽象推理。該論文強調了當前語言模型面臨的主要挑戰之一。正如加州大學洛杉磯分校的研究人員所指出的,「一方面,當一個模型被訓練來從資料中學習一項任務時,它總是傾向於學習統計模式,這些模式固有地存在於推理範例中;然而,另一方面,邏輯規則從不依賴統計模式來進行推理。由於很難建立一個不包含統計特徵的邏輯推理資料集,因此從資料中學習推理是很困難的。」
原文連結:https://bdtechtalks.com/2022/06/27/large-language-models-logical-reasoning/
以上是研究顯示大型語言模型在邏輯推理方面有問題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为乾崑ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为乾崑ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
