最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

PHPz
發布: 2023-05-11 21:52:04
轉載
1550 人瀏覽過

自然語言推理(Natural Language Inference,NLI)是自然語言處理中一項重要任務,其目標是根據給定的前提和假設,來判斷假設是否可以從前提中推斷出來。然而,由於歧義是自然語言內在的特徵,處理歧義也是人類語言理解的重要組成部分。由於人類語言表達的多樣性,歧義處理成為解決自然語言推理問題的困難之一。目前,各種自然語言處理演算法被應用到問答系統、語音辨識、智慧翻譯和自然語言生成等場景中,但即使有這些技術,完全解決歧義仍然是一個極具挑戰性的任務。

對於 NLI 任務,大型自然語言處理模型如 GPT-4 等確實面臨挑戰。其中一個問題是語言歧義導致模型難以準確理解句子的真正意義。此外,由於自然語言的靈活性和多樣性,不同文本之間可能存在各種各樣的關係,這使得NLI 任務中的資料集變得極其複雜,同時也對自然語言處理模型的普適性和泛化能力提出了巨大挑戰。因此,在處理歧義語言方面,如果今後大模型成功將顯得至關重要,並且大模型已被廣泛應用於對話介面和寫作輔助工具等領域。處理歧義將有助於適應不同的背景,提高溝通的清晰性,以及識別誤導性或欺騙性言語的能力。

這篇討論大模型歧義的論文標題使用了一語雙關的表達,“We’re Afraid…”,既表達了當前對語言模型難以準確建模歧義的擔憂,又暗示了論文所描述的語言結構。本文也表明,人們正在努力製定新的基準,以真正挑戰強大的新的大模型,以便更準確地理解和產生自然語言,並實現模型上的新突破。

論文題目: We're Afraid Language Models Aren't Modeling Ambiguity

論文連結: https://arxiv.org/abs/2304.14399

程式碼與資料位址: https://github.com/alisawuffles/ambient

本文作者計畫研究預訓練大模型是否有能力辨識和區分含有多個可能解釋的句子,評估模型如何區分不同的讀法和解釋。然而,現有的基準測試資料通常不包含歧義的例子,因此需要自己建構實驗來探討這個問題。

傳統的NLI 三路標註方案指的是一種用於自然語言推理(NLI)任務的標註方式,它需要標註者在三個標籤中選擇一個標籤來表示原始文本和假設之間的關係。這三個標籤通常是「蘊含(entailment)」、「中立(neutral)」和「矛盾(contradiction)」。

作者使用了 NLI 任務的格式來進行實驗,採用了函數式方法,透過對前提或假設中的歧義對蘊含關係的影響來表徵歧義。作者提出了一個名為 AMBIENT(Ambiguity in Entailment)的基準測試,涵蓋了各種詞彙、句法和語用歧義,並更廣泛地涵蓋了可能傳達多個不同訊息的句子。

如圖 1 所示,歧義可能是無意識的誤解(圖 1 頂部),也可能是故意用來誤導聽眾的(圖 1 底部)。例如,如果貓離開家後迷失方向,那麼從無法找到回家的路線的意義上看,它是迷路了(蘊涵邊);如果它已經好幾天沒有回家,那麼從其他人無法找到它的意義上看,它也是迷失了(中立邊)。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲圖1 用貓迷路解釋的歧義範例

AMBIENT 資料集介紹

精選範例

作者提供了1645 個涵蓋多種類型歧義的句子範例,其中包括手寫樣本和來自現有NLI資料集和語言學教材。 AMBIENT 中的每個範例都包含一組標籤,對應於各種可能的理解,以及每種理解的消歧重寫,如表 1 所示。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲表1 精選範例中的前提和假設對

#產生的範例

研究人員也採用了過度生成和過濾的方法來建立一個大型的未標籤的NLI 範例語料庫,以更全面地涵蓋不同的歧義情況。他們受到前人工作的啟發,自動識別共享推理模式的前提假設對組,並透過鼓勵創建具有相同模式的新範例來加強語料庫的品質。

註解和驗證

針對先前步驟所獲得的例子,需要進行註解和標註。這個過程涉及了兩位專家的註釋、一位專家的驗證和匯總,以及部分作者的驗證。同時,37 名語言學專業的學生為每個例子選擇了一組標籤,並提供了消歧重寫。所有這些被註釋後的例子經過篩選和驗證,最終得到了 1503 個最終的例子。

具體流程如圖 2 所示:首先,使用 InstructGPT 建立未帶標籤的範例,再由兩位語言學家獨立進行註解。最後,透過一位作者的整合,得到最終的註釋與標註。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲圖2 AMBIENT 中產生範例的註解流程

此外,這裡也探討了不同標註者之間標註結果的一致性問題,以及AMBIENT 資料集中存在的歧義類型。作者在該資料集中隨機選擇了 100 個樣本作為開發集,其餘樣本用作測試集,圖 3 是其中集合標籤的分佈情況,每個樣本都具有對應的推理關係標籤。研究表明,在歧義情況下,多個標註者的標註結果具有一致性,使用多個標註者的聯合結果可以提高標註準確性。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲圖3 AMBIENT 中集合標籤的分佈

#歧義是否說明了「不同意」?

研究分析了在傳統的 NLI 三路標註方案下,標註者在對含歧義輸入進行標註時的行為。研究發現,標註者可以意識到歧義,而歧義是導致標籤差異的主要原因,因此挑戰了「不同意」是模擬例子不確定性的流行假設。

在研究中,採用 AMBIENT 資料集,僱用了 9 位眾包工作者對每個含歧義的例子進行標註。

任務分為三個步驟:

  1. 標註含歧義的例子
  2. 識別可能的不同解釋
  3. 標註已消除歧義的例子

其中,步驟2 中,三個可能的解釋包括兩個可能的意思和一個類似但不完全相同的句子。最後,對每個可能的解釋,都將其代入原始例子得到三個新的 NLI 例子,讓標註者分別選擇一個標籤。

此實驗的結果支持了假設:在單標註體系下,原始的模糊例子會產生高度不一致的結果,即在給句子打標籤的過程中,人們對於模糊不清的句子容易產生不同的判斷,導致結果不一致。但是,當在任務中加入消除歧義的步驟後,註釋員們普遍能夠識別並驗證句子的多種可能性,結果的不一致性得到了大幅解決。因此,消除歧義是減少註釋員主觀性對結果影響的有效方法。

評估大模型上的表現

Q1. 能否直接產生與消歧有關的內容

這部分重點在於測試語言模型在上下文中直接產生消歧和對應標籤的學習能力。為此,作者建立了一個自然提示並使用自動評估和人工評估來驗證模型的表現,如表 2 所示。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲表2 當前提不明確時,用於產生歧義消除任務的few-shot 範本

在測試中,每個範例都有4 個其他測試範例作為上下文,並使用EDIT-F1 指標和人工評估來計算得分和正確性。實驗結果如表 3 顯示,GPT-4 在測試中表現最佳,實現了18.​​0%的 EDIT-F1 得分和 32.0% 的人工評估正確性。此外,也觀察到大模型在消歧時常常採用加入額外情境的策略來直接確認或否定假設。不過要注意的是,人工評估可能會高估模型準確報告歧義來源的能力。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲表3 大模型在 AMBIENT 上的表現

Q2. 能否辨識出合理解釋的有效性

這部分主要研究了大模型在辨識含有歧義的句子時的表現。透過建立一系列真假陳述模板,並對模型進行 zero-shot 測試,研究人員評估了大模型在選擇正誤之間的預測中的表現。實驗結果表明,最佳模型是 GPT-4,然而,在考慮歧義性的情況下,GPT-4 在回答所有四個模板的歧義解釋中的表現比隨機猜測的準確率還低。此外,大模型在問題上存在一致性問題,對於同一個歧義句子的不同解釋對,模型可能會出現內部矛盾的情況。

這些發現提示我們,需要進一步研究如何提高大模型對含有歧義的句子的理解能力,並更好地評估大模型的表現。

Q3. 透過不同解釋模擬開放式連續生成

這一部分主要研究基於語言模型的歧義理解能力。透過給定上下文,對語言模型進行測試,比較模型對於不同可能解釋下的文本延續的預測。為了衡量模型對於歧義的處理能力,研究人員透過在相應語境下比較模型在給定歧義和給定正確語境下所產生的機率和期望差異,用KL 散度來衡量模型的“驚奇度” ,並且引入隨機替換名詞的「幹擾句」來進一步測試模型的能力。

實驗結果表明,FLAN-T5 的正確率最高,但不同測試套件(LS 涉及同義詞替換,PC 涉及拼寫錯誤的修正,SSD 涉及語法結構修正)和不同模型的表現結果不一致,說明歧義仍然是模型的一個嚴重挑戰。

多重標籤NLI 模型實驗

如表4 所示,在已有標籤變更的資料上微調NLI 模型仍有較大提升空間,特別是多標籤NLI 任務中。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲表4 多標籤NLI 模型在AMBIENT 上的表現

偵測誤導性的政治言論

這項實驗研究了對政治言論的不同理解方式,證明了對不同理解方式敏感的模式可被有效利用。研究結果如表 5 所示,針對有歧義的句子,一些解釋性的釋義可以自然地消除歧義,因為這些釋義只能保留歧義或明確表達一個特定的意義。

最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!

▲表5 本文偵測方法標記為有歧義的政治言論

此外,針對這種預測的釋義,可以揭示歧義的根源。透過進一步分析誤報的結果,作者也發現了許多事實查核中沒有提到的歧義,說明這些工具在預防誤解方面具有很大的潛力。

小結

如本文所指出的那樣,自然語言的歧義性將是模型最佳化中的關鍵挑戰。我們期待未來的技術發展中,自然語言理解模型能夠更準確地識別文本中的上下文和重點,並在處理歧義性文本時表現出更高的敏感度。儘管我們已經建立了評估自然語言處理模型識別歧義的基準,並且能夠更好地了解模型在這個領域中的局限性,但這仍然是一個非常具有挑戰性的任務。

夕小瑤科技說 原創

作者 |智商掉了一地、Python

以上是最新研究,GPT-4暴露了缺點!無法完全理解語言歧義!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板