沒想到,AI 進化之後淘汰掉的第一批人,就是幫 AI 訓練的人。
許多 NLP 應用程式需要為各種任務手動進行大量資料註釋,特別是訓練分類器或評估無監督模型的效能。根據規模和複雜程度,這些任務可能由眾包工作者在 MTurk 等平台上以及訓練有素的標註人(如研究助理)執行。
我們知道,語言大模型(LLM)在規模到達一定程度之後可以「湧現」— 即獲得先前無法預料的新能力。作為推動 AI 新一輪爆發的大模型,ChatGPT 在許多任務上的能力也超出了人們的預期,其中就包括為資料集做標註這種自己訓練自己的工作。
近日,來自蘇黎世大學的研究者證明了ChatGPT 在多項註釋任務(包括相關性、立場、主題和框架檢測)上優於眾包工作平台和人類工作助理。
此外,研究人員也做了計算:ChatGPT 的每條註釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結果顯示了大型語言模型在大幅提高文字分類效率的潛力。
論文連結:https://arxiv.org/abs/2303.15056
許多NLP 應用程式需要高品質的標註數據,特別是用於訓練分類器或評估無監督模型的性能。例如,研究人員有時需要過濾吵雜的社群媒體資料以獲得相關性,將文字分配給不同的主題或概念類別,或衡量他們的情緒立場。無論用於這些任務的具體方法是什麼(監督、半監督或無監督學習),都需要準確地標註資料來建立訓練集,或用其作為評估表現的黃金標準。
對此,人們通常的處理方式是招募研究助理,或是使用 MTurk 這樣的群眾外包平台。 OpenAI 在打造 ChatGPT 時,也將負面內容問題分包給了肯亞的資料標註機構,進行了大量標註訓練才敢正式上線。
由瑞士蘇黎世大學提交的這篇報告探討了大語言模型(LLM)在文本標註任務中的潛力,並重點關注了 2022 年 11 月發布的 ChatGPT。它證明了零樣本(即沒有任何額外訓練)ChatGPT 在分類任務上優於 MTurk 標註 ,而成本僅需人工的幾十分之一。
研究人員使用了先前的研究收集的 2382 個推文樣本。這些推文由訓練有素的註釋者(研究助理)標記為五種不同的任務:相關性、立場、主題和兩種框架檢測。實驗中,研究者將任務作為零樣本分類提交給ChatGPT,並同時給MTurk 上的眾包工作者,然後根據兩個基準評估了ChatGPT 的性能:相對於眾包平台上人類工作者的準確性,以及相對於研究助理註釋者的準確性。
結果發現,在五分之四的任務上,ChatGPT 的零樣本準確率高於 MTurk。對於所有任務,ChatGPT 的編碼器協議都超過了 MTurk 和訓練有素的註釋者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五個分類任務在 ChatGPT(25264 個註釋)上的成本約為 68 美元,在 MTurk(12632 個註釋)上的成本約為 657 美元。
這麼一算,ChatGPT 的每個註解成本約為 0.003 美元,即三分之一美分 —— 比 MTurk 便宜約 20 倍,而且品質更高。有鑑於此,我們現在已有可能對更多樣本進行註釋,或為監督學習建立大型訓練集。根據現有的測試,10 萬個註釋的成本約為 300 美元。
研究人員表示,雖然需要進一步研究以更好地了解ChatGPT 和其他LLM 如何在更廣泛的環境中發揮作用,但這些結果表明它們有可能改變研究人員進行資料註釋的方式,並破壞MTurk 等平台的部分商業模式。
研究人員使用了包含 2382 條推文的資料集,這些推文是先前針對內容審核相關任務的研究手動註釋的。具體來說,訓練有素的註釋者(研究助理)為五個具有不同類別數量的概念類別構建了黃金標準:推文與內容審核問題的相關性(相關/ 不相關);關於第230 條(美國1996 年《通訊規範法》的一部分)的立場,這是美國網路立法的關鍵部分;主題識別(六類);第一組框架(內容審核作為問題、解決方案或中性);以及第二組框架(十四類)。
然後,研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對於 ChatGPT 進行了四組標註。為了探索控制輸出隨機程度的 ChatGPT 溫度參數的影響,這裡使用預設值 1 和 0.2 進行註釋,這意味著隨機性較小。對於每個溫度值,研究人員進行了兩組註釋來計算 ChatGPT 的編碼器協議。
對於專家,該研究找到了兩名政治學研究生,對所有五項任務對推文進行註釋。對於每項任務,編碼員都獲得了相同指令集,其被要求逐個任務獨立地註釋推文。為了計算 ChatGPT 和 MTurk 的準確性,對比只考慮了兩個訓練有素的註釋者都同意的推文。
對於MTurk,研究的目標是選擇最好的工作者群體,特別是透過篩選被亞馬遜歸類為「MTurk 大師」、好評超過90% 且在美國的工作者。
研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。註記於 2023 年 3 月 9 日至 3 月 20 日之間進行。對於每個註釋任務,研究人員有意避免添加任何特定於 ChatGPT 的提示(prompt),例如「讓我們逐步思考」,以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。
在測試了幾種變體之後,人們決定使用這樣的提示將推文一條一條地提供給ChatGPT:「這是我選擇的推文,請將其標記為[任務特定說明(例如,說明中的主題之一)]。此外,該研究中每條推文收集了四個ChatGPT 回應,也為每條推文創建一個新的聊天會話,以確保ChatGPT 結果不受註釋歷史記錄的影響。
#圖1. 與MTurk 上高分標註人相比,ChatGPT zero -shot 的文字標註能力。ChatGPT 在五項任務中的四項中的準確性優於MTurk。
在上圖中ChatGPT 有優勢的在四項任務中,在一種情況下(相關性)ChatGPT 略有優勢,但其性能與MTurk 非常相似。其他三種情況下(frams I、frams II 和Stance),ChatGPT 的性能比MTurk 高2.2 到3.4 倍。此外,考慮到任務的難度、類別的數量以及註釋是零樣本的事實,ChatGPT 的準確度總體來說綽綽有餘。
對於相關性,有兩個類別(相關/ 不相關),ChatGPT 的準確率為72.8%,而對於立場,有三個類別(正面/ 負面/ 中性)的準確率為78.7%。隨著類別數量的增加,準確性會降低,儘管任務的內在難度也有影響。關於編碼器協議,圖1 顯示ChatGPT 的表現非常高,當溫度參數設定為0.2 時,所有任務的表現都超過95%。這些值高於任何人類,包括訓練有素的註釋者。即使使用預設溫度值1(這意味著更多的隨機性),編碼器間一致性始終超過84%。編碼器間一致性和準確性之間的關係是正的,但很弱(皮爾遜相關係數:0.17)。儘管相關性僅基於五個數據點,但它表明較低的溫度值可能更適合註釋任務,因為它似乎可以提高結果的一致性而不會大幅降低準確性。
必須強調的是,對ChatGPT 進行測試非常困難。內容審核是一個複雜的主題,需要大量資源。除了立場之外,研究人員還為特定研究目的開發了概念類別。此外,一些任務涉及大量類別,然而ChatGPT 仍然達到了很高的準確率。
使用模型來註釋資料並不是什麼新鮮事,在使用大規模資料集的電腦科學研究中,人們經常會標註少量樣本然後用機器學習進行擴增。不過在表現超過人類之後,未來我們或許可以更信任來自 ChatGPT 的判斷了。
以上是ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準的詳細內容。更多資訊請關注PHP中文網其他相關文章!