最近,來自蘇黎世大學的研究團隊發現,ChatGPT在多個NLP標註任務上勝過眾包工作者,具有較高一致性,且每次標註成本僅約0.003美元,比MTurk便宜20倍。
目前,許多自然語言處理(NLP)應用需要高品質的標註資料來支撐,特別是當這些資料被用於訓練分類器或評估無監督模型的表現等任務。
例如,人工智慧研究人員通常希望過濾嘈雜的社群媒體資料的相關性,將文字分配到不同的主題或概念類別,或衡量其情緒或立場。
而且,無論這些任務使用什麼具體方法(監督、半監督或無監督),都需要標註好的資料來建立一個訓練集或黃金標準。
然而,在大多數情況下,要完成高品質的資料標註(data annotation)工作,依然離不開資料標註平台上的眾包工作者或諸如研究助理等訓練有素的標註者來手動進行。
通常情況下,訓練有素的標註者會先建立一個相對較小的黃金標準資料集,然後僱用眾包工作者來增加標註資料的數量,進行重複性工作。根據規模大小和複雜程度,資料標註任務有時會非常費時費力,不僅需要花費一定的人力成本,也不能保證資料標註的品質。
那麼,能否讓機器幫助人類完成這項基礎任務呢?
在以往的認知中,機器並不擅長這類「慢工出細活」的任務,但出乎意料的是,「資料標註」這件事已經讓ChatGPT 完成了,而且比大多數人做得還更好。
在今天發表的新研究中,來自蘇黎世大學的研究團隊使用由2382 條推文組成的樣本,證明了 ChatGPT 在相關性、主題和框架偵測等標多個注任務上優於眾包工作者。
相關研究論文以「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」為題,已發表在預印本網站 arXiv 上。
具體來說,ChatGPT 在五項任務的四項中的零樣本(zero-shot)準確率超過了眾包工作者;在所有任務中表現出的編碼者間一致性(intercoder agreement)方面,ChatGPT 不僅超過了眾包工作者,也同樣超過了訓練有素的標註者。
ChatGPT 零樣本文字資料標註表現
值得一提的是,ChatGPT 的每個標註成本不到0.003 美元,而比數據標註平台便宜約20 倍。
研究團隊認為,雖然需要進一步的研究來更好地了解ChatGPT 和其他LLMs 在更廣泛的背景下的表現,但該研究結果表明,它們有可能改變研究人員進行數據註釋的方式,大幅提昇文字分類的效率,並破壞資料標註平台的部分商業模式。
至少,從目前來看,這些發現顯示了更深入研究 LLMs 的文本標註特性和能力的重要性。
未來,研究團隊將在ChatGPT 在多種語言中的表現、ChatGPT 在多種類型的文本(社群媒體、新聞媒體、立法、演講等)中的表現、使用思考鏈(CoT)提示和其他策略來提高零樣本推理的表現等方面繼續努力。
值得一提的是,研究團隊在進行這項工作時,OpenAI 還沒有發布 GPT-4,如果讓 GPT-4 來完成資料標註任務,又會是怎樣的結果呢?
參考資料:https://arxiv.org/abs/2303.15056
以上是一次只要0.003美元,比人類便宜20倍! ChatGPT讓資料標註者危矣的詳細內容。更多資訊請關注PHP中文網其他相關文章!