冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法-人工智慧-PHP中文網

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-04-14 14:10:03

轉載

1270 人瀏覽過

自然語言生成 (NLG) 技術的最新進展顯著提高了大型語言模型生成文字的多樣性、控制力和品質。一個值得注意的例子是 OpenAI 的 ChatGPT，它在回答問題、撰寫電子郵件、論文和程式碼等任務中展示了卓越的效能。然而，這種新發現的高效生成文本的能力也引起了人們對檢測和防止大型語言模型在網路釣魚、虛假資訊和學術造假等任務中濫用的擔憂。例如，由於擔心學生利用 ChatGPT 寫作業，紐約公立學校全面禁止了 ChatGPT 的使用，媒體也對大型語言模式產生的假新聞發出警告。這些對大型語言模式濫用的擔憂嚴重阻礙了自然語言生成在媒體和教育等重要領域的應用。

最近關於是否可以正確檢測大型語言模型產生的文本以及如何檢測的討論越來越多，這篇文章對現有檢測方法進行了全面的技術介紹。

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法

#論文網址：https://github.com/datamllab/The-Science- of-LLM-generated-Text-Detection
#相關研究地址：https://github.com/datamllab/awsome-LLM-generated-text-detection /tree/main

現有的方法大致可分為兩類：黑盒偵測與白盒偵測#。

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法

大語言模型產生文字偵測概述

#黑盒子偵測方法對大型語言模型通常只有API 等級的存取權。因此，這類方法依靠於收集人類和機器的文本樣本來訓練分類模型；
白盒檢測，這類方法擁有對大型語言模型的所有存取權限，並且可以透過控制模型的生成行為或在生成文字中加入水印（watermark）來追蹤生成文字生成文字。

在實踐中，黑盒偵測器通常由第三方構建，例如 GPTZero，而白盒偵測器通常由大型語言模型開發人員建構。

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法

大型語言模型產生的文字偵測分類學

#黑盒偵測

黑盒偵測一般有三個步驟，分別是資料收集，特徵選擇和模型建立。

對於人類文本的收集，一種方法是招募專業人員進行資料收集，但是這種方法費時費力，不適於大型資料集的收集，更有效率的方法是利用現有的人類文字數據，例如從維基百科收集各種專家編輯的詞條，或是從媒體上收集數據，例如Reddit。

特徵的選取一般分為統計特徵，語言特徵和事實特徵。其中統計特徵一般是用來檢查大型語言模型生成文本是否在一些常用的文本統計指標上於人類文本不同，常用的有 TFIDF、齊夫定律等。語言特徵一般是找一些語言學特徵，例如詞性，依存分析，情緒分析等。最後，大型語言模型常常會產生一些反事實的言論，因此事實驗證也可以提供一些區分大型語言模型生成文本的資訊。

現有的分類模型一般分為傳統的機器學習模型，例如 SVM 等。最新的研究傾向於利用語言模型來做主幹，例如 BERT，RoBERTa，並且取得了更高的檢測表現。

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法

這兩個文字之間有明顯的差異。 human-written 文字來自 Chalkbeat New York。

白盒偵測

白盒偵測一般預設是大型語言模型開發人員提供的偵測。不同於黑盒檢測，白盒檢測對模型擁有完全訪問權力, 因此能透過改變模型的輸出來植入水印，以此達到檢測的目的。

目前的偵測方法可以分為 post-hoc 浮水印與inference time 浮水印：

#其中post-hoc 水印是在大型語言模型生成完文字後，再在文本中加入一些隱藏的資訊用於之後的檢測；
Inference time 水印則是改變大型語言模型對token 的採樣機制來加入水印，在大型語言模型生成每一個token 的過程中，其會根據所有token 的概率和預設的採樣策略來選擇下一個生成的詞，這個選擇的過程就可以加入水印。

冒充人類作者，ChatGPT等濫用引擔憂，一文綜述AI生成文本檢測方法