最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！-人工智慧-PHP中文網

自然語言推理（Natural Language Inference，NLI）是自然語言處理中一項重要任務，其目標是根據給定的前提和假設，來判斷假設是否可以從前提中推斷出來。然而，由於歧義是自然語言內在的特徵，處理歧義也是人類語言理解的重要組成部分。由於人類語言表達的多樣性，歧義處理成為解決自然語言推理問題的困難之一。目前，各種自然語言處理演算法被應用到問答系統、語音辨識、智慧翻譯和自然語言生成等場景中，但即使有這些技術，完全解決歧義仍然是一個極具挑戰性的任務。

對於 NLI 任務，大型自然語言處理模型如 GPT-4 等確實面臨挑戰。其中一個問題是語言歧義導致模型難以準確理解句子的真正意義。此外，由於自然語言的靈活性和多樣性，不同文本之間可能存在各種各樣的關係，這使得NLI 任務中的資料集變得極其複雜，同時也對自然語言處理模型的普適性和泛化能力提出了巨大挑戰。因此，在處理歧義語言方面，如果今後大模型成功將顯得至關重要，並且大模型已被廣泛應用於對話介面和寫作輔助工具等領域。處理歧義將有助於適應不同的背景，提高溝通的清晰性，以及識別誤導性或欺騙性言語的能力。

這篇討論大模型歧義的論文標題使用了一語雙關的表達，“We’re Afraid…”，既表達了當前對語言模型難以準確建模歧義的擔憂，又暗示了論文所描述的語言結構。本文也表明，人們正在努力製定新的基準，以真正挑戰強大的新的大模型，以便更準確地理解和產生自然語言，並實現模型上的新突破。

論文題目: We're Afraid Language Models Aren't Modeling Ambiguity

論文連結: https://arxiv.org/abs/2304.14399

程式碼與資料位址: https://github.com/alisawuffles/ambient

本文作者計畫研究預訓練大模型是否有能力辨識和區分含有多個可能解釋的句子，評估模型如何區分不同的讀法和解釋。然而，現有的基準測試資料通常不包含歧義的例子，因此需要自己建構實驗來探討這個問題。

傳統的NLI 三路標註方案指的是一種用於自然語言推理（NLI）任務的標註方式，它需要標註者在三個標籤中選擇一個標籤來表示原始文本和假設之間的關係。這三個標籤通常是「蘊含（entailment）」、「中立（neutral）」和「矛盾（contradiction）」。

作者使用了 NLI 任務的格式來進行實驗，採用了函數式方法，透過對前提或假設中的歧義對蘊含關係的影響來表徵歧義。作者提出了一個名為 AMBIENT（Ambiguity in Entailment）的基準測試，涵蓋了各種詞彙、句法和語用歧義，並更廣泛地涵蓋了可能傳達多個不同訊息的句子。

如圖 1 所示，歧義可能是無意識的誤解（圖 1 頂部），也可能是故意用來誤導聽眾的（圖 1 底部）。例如，如果貓離開家後迷失方向，那麼從無法找到回家的路線的意義上看，它是迷路了（蘊涵邊）；如果它已經好幾天沒有回家，那麼從其他人無法找到它的意義上看，它也是迷失了（中立邊）。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲圖1 用貓迷路解釋的歧義範例

AMBIENT 資料集介紹

精選範例

作者提供了1645 個涵蓋多種類型歧義的句子範例，其中包括手寫樣本和來自現有NLI資料集和語言學教材。 AMBIENT 中的每個範例都包含一組標籤，對應於各種可能的理解，以及每種理解的消歧重寫，如表 1 所示。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲表1 精選範例中的前提和假設對

#產生的範例

研究人員也採用了過度生成和過濾的方法來建立一個大型的未標籤的NLI 範例語料庫，以更全面地涵蓋不同的歧義情況。他們受到前人工作的啟發，自動識別共享推理模式的前提假設對組，並透過鼓勵創建具有相同模式的新範例來加強語料庫的品質。

註解和驗證

針對先前步驟所獲得的例子，需要進行註解和標註。這個過程涉及了兩位專家的註釋、一位專家的驗證和匯總，以及部分作者的驗證。同時，37 名語言學專業的學生為每個例子選擇了一組標籤，並提供了消歧重寫。所有這些被註釋後的例子經過篩選和驗證，最終得到了 1503 個最終的例子。

具體流程如圖 2 所示：首先，使用 InstructGPT 建立未帶標籤的範例，再由兩位語言學家獨立進行註解。最後，透過一位作者的整合，得到最終的註釋與標註。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲圖2 AMBIENT 中產生範例的註解流程

此外，這裡也探討了不同標註者之間標註結果的一致性問題，以及AMBIENT 資料集中存在的歧義類型。作者在該資料集中隨機選擇了 100 個樣本作為開發集，其餘樣本用作測試集，圖 3 是其中集合標籤的分佈情況，每個樣本都具有對應的推理關係標籤。研究表明，在歧義情況下，多個標註者的標註結果具有一致性，使用多個標註者的聯合結果可以提高標註準確性。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲圖3 AMBIENT 中集合標籤的分佈

#歧義是否說明了「不同意」？

研究分析了在傳統的 NLI 三路標註方案下，標註者在對含歧義輸入進行標註時的行為。研究發現，標註者可以意識到歧義，而歧義是導致標籤差異的主要原因，因此挑戰了「不同意」是模擬例子不確定性的流行假設。

在研究中，採用 AMBIENT 資料集，僱用了 9 位眾包工作者對每個含歧義的例子進行標註。

任務分為三個步驟：

標註含歧義的例子
識別可能的不同解釋
標註已消除歧義的例子

其中，步驟2 中，三個可能的解釋包括兩個可能的意思和一個類似但不完全相同的句子。最後，對每個可能的解釋，都將其代入原始例子得到三個新的 NLI 例子，讓標註者分別選擇一個標籤。

此實驗的結果支持了假設：在單標註體系下，原始的模糊例子會產生高度不一致的結果，即在給句子打標籤的過程中，人們對於模糊不清的句子容易產生不同的判斷，導致結果不一致。但是，當在任務中加入消除歧義的步驟後，註釋員們普遍能夠識別並驗證句子的多種可能性，結果的不一致性得到了大幅解決。因此，消除歧義是減少註釋員主觀性對結果影響的有效方法。

評估大模型上的表現

Q1. 能否直接產生與消歧有關的內容

這部分重點在於測試語言模型在上下文中直接產生消歧和對應標籤的學習能力。為此，作者建立了一個自然提示並使用自動評估和人工評估來驗證模型的表現，如表 2 所示。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲表2 當前提不明確時，用於產生歧義消除任務的few-shot 範本

在測試中，每個範例都有4 個其他測試範例作為上下文，並使用EDIT-F1 指標和人工評估來計算得分和正確性。實驗結果如表 3 顯示，GPT-4 在測試中表現最佳，實現了18.0%的 EDIT-F1 得分和 32.0% 的人工評估正確性。此外，也觀察到大模型在消歧時常常採用加入額外情境的策略來直接確認或否定假設。不過要注意的是，人工評估可能會高估模型準確報告歧義來源的能力。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲表3 大模型在 AMBIENT 上的表現

Q2. 能否辨識出合理解釋的有效性

這部分主要研究了大模型在辨識含有歧義的句子時的表現。透過建立一系列真假陳述模板，並對模型進行 zero-shot 測試，研究人員評估了大模型在選擇正誤之間的預測中的表現。實驗結果表明，最佳模型是 GPT-4，然而，在考慮歧義性的情況下，GPT-4 在回答所有四個模板的歧義解釋中的表現比隨機猜測的準確率還低。此外，大模型在問題上存在一致性問題，對於同一個歧義句子的不同解釋對，模型可能會出現內部矛盾的情況。

這些發現提示我們，需要進一步研究如何提高大模型對含有歧義的句子的理解能力，並更好地評估大模型的表現。

Q3. 透過不同解釋模擬開放式連續生成

這一部分主要研究基於語言模型的歧義理解能力。透過給定上下文，對語言模型進行測試，比較模型對於不同可能解釋下的文本延續的預測。為了衡量模型對於歧義的處理能力，研究人員透過在相應語境下比較模型在給定歧義和給定正確語境下所產生的機率和期望差異，用KL 散度來衡量模型的“驚奇度” ，並且引入隨機替換名詞的「幹擾句」來進一步測試模型的能力。

實驗結果表明，FLAN-T5 的正確率最高，但不同測試套件（LS 涉及同義詞替換，PC 涉及拼寫錯誤的修正，SSD 涉及語法結構修正）和不同模型的表現結果不一致，說明歧義仍然是模型的一個嚴重挑戰。

多重標籤NLI 模型實驗

如表4 所示，在已有標籤變更的資料上微調NLI 模型仍有較大提升空間，特別是多標籤NLI 任務中。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲表4 多標籤NLI 模型在AMBIENT 上的表現

偵測誤導性的政治言論

這項實驗研究了對政治言論的不同理解方式，證明了對不同理解方式敏感的模式可被有效利用。研究結果如表 5 所示，針對有歧義的句子，一些解釋性的釋義可以自然地消除歧義，因為這些釋義只能保留歧義或明確表達一個特定的意義。

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

▲表5 本文偵測方法標記為有歧義的政治言論

此外，針對這種預測的釋義，可以揭示歧義的根源。透過進一步分析誤報的結果，作者也發現了許多事實查核中沒有提到的歧義，說明這些工具在預防誤解方面具有很大的潛力。

小結

如本文所指出的那樣，自然語言的歧義性將是模型最佳化中的關鍵挑戰。我們期待未來的技術發展中，自然語言理解模型能夠更準確地識別文本中的上下文和重點，並在處理歧義性文本時表現出更高的敏感度。儘管我們已經建立了評估自然語言處理模型識別歧義的基準，並且能夠更好地了解模型在這個領域中的局限性，但這仍然是一個非常具有挑戰性的任務。

夕小瑤科技說原創

作者 |智商掉了一地、Python

以上是最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3，又有測試結果新鮮出爐－大模型評測社群LMSYS發布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4並列第一。圖片不同於其他Benchmark，這份榜單的依據是模型一對一battle，由全網測評者自行命題並評分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對於這一結果，Meta的首席科學家LeCun十分高興，轉發了推文並

自然語言生成任務中的五種採樣方法介紹和Pytorch程式碼實現 Feb 20, 2024 am 08:50 AM

在自然語言生成任務中，取樣方法是從生成模型中獲得文字輸出的一種技術。這篇文章將討論5種常用方法，並使用PyTorch進行實作。 1.GreedyDecoding在貪婪解碼中，生成模型根據輸入序列逐個時間步地預測輸出序列的單字。在每個時間步，模型會計算每個單字的條件機率分佈，然後選擇具有最高條件機率的單字作為當前時間步的輸出。這個單字成為下一個時間步的輸入，生成過程會持續直到滿足某種終止條件，例如產生了指定長度的序列或產生了特殊的結束標記。 GreedyDecoding的特點是每次選擇當前條件機率最

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠對各種問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

全球最強模型一夜易主，GPT-4時代終結！ Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！在多模態和語言能力指標上，Claude3都贏麻了。用Anthropic的話來說，Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面，都樹立了新的行業基準！ Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的新創公司，他們的產品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

ChatGPT和生成式人工智慧在數位轉型中的意義 May 15, 2023 am 10:19 AM

開發ChatGPT的OpenAI公司在網站上展示了摩根士丹利進行的一個案例研究。其主題是「摩根士丹利財富管理部署GPT-4來組織其龐大的知識庫。」該案例研究引述摩根士丹利分析、數據與創新主管JeffMcMillan的話說，「該模型將為一個面向內部的聊天機器人提供動力，該機器人將對財富管理內容進行全面搜索，並有效地解鎖摩根士丹利財富管理的累積知識」。 McMillan進一步強調：「採用GPT-4，你基本上立刻就擁有了財富管理領域最博學的人的知識……可以把它想像成我們的首席投資策略師、首席全球經濟學家

如何使用PHP進行基本的自然語言生成 Jun 22, 2023 am 11:05 AM

自然語言生成是一種人工智慧技術，它能夠將資料轉換為自然語言文字。在當今的大數據時代，越來越多的業務需要將資料視覺化或呈現給用戶，而自然語言生成正是一種非常有效的方法。 PHP是一種非常受歡迎的伺服器端腳本語言，它可以用來開發網頁應用程式。本文將簡要介紹如何使用PHP進行基本的自然語言生成。引入自然語言生成庫PHP自帶的函數庫並不包括自然語言生成所需的功能，因此

20步內越獄任意大模型！更多「奶奶漏洞」全自動發現 Nov 05, 2023 pm 08:13 PM

不到一分鐘、不超過20步，任意繞過安全限制，成功越獄大型模型！而且不必知道模型內部細節－只需要兩個黑盒子模型互動，就能讓AI全自動攻陷AI，說出危險內容。聽說曾經紅極一時的“奶奶漏洞”已經被修復了:如今，面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”，人工智能應該採取何種應對策略呢？一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統投毒只要…這樣那樣。關鍵這只是賓州大學研究團隊曬出的一小波漏洞，而用上他們最新開發的演算法，AI可以自動產生各種攻擊提示。研究人員表示，這種方法相比於現有的

See all articles

最新研究，GPT-4暴露了缺點！無法完全理解語言歧義！

AMBIENT 資料集介紹

精選範例

#產生的範例

註解和驗證

#歧義是否說明了「不同意」？

評估大模型上的表現

Q1. 能否直接產生與消歧有關的內容

Q2. 能否辨識出合理解釋的有效性

Q3. 透過不同解釋模擬開放式連續生成

多重標籤NLI 模型實驗

偵測誤導性的政治言論

小結

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題