目錄
#研究細節
實驗過程
首頁 科技週邊 人工智慧 ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

Apr 08, 2023 am 10:21 AM
ai 數據

沒想到,AI 進化之後淘汰掉的第一批人,就是幫 AI 訓練的人。

許多 NLP 應用程式需要為各種任務手動進行大量資料註釋,特別是訓練分類器或評估無監督模型的效能。根據規模和複雜程度,這些任務可能由眾包工作者在 MTurk 等平台上以及訓練有素的標註人(如研究助理)執行。

我們知道,語言大模型(LLM)在規模到達一定程度之後可以「湧現」— 即獲得先前無法預料的新能力。作為推動 AI 新一輪爆發的大模型,ChatGPT 在許多任務上的能力也超出了人們的預期,其中就包括為資料集做標註這種自己訓練自己的工作。

近日,來自蘇黎世大學的研究者證明了ChatGPT 在多項註釋任務(包括相關性、立場、主題和框架檢測)上優於眾包工作平台和人類工作助理。

此外,研究人員也做了計算:ChatGPT 的每條註釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結果顯示了大型語言模型在大幅提高文字分類效率的潛力。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

論文連結:https://arxiv.org/abs/2303.15056

#研究細節

許多NLP 應用程式需要高品質的標註數據,特別是用於訓練分類器或評估無監督模型的性能。例如,研究人員有時需要過濾吵雜的社群媒體資料以獲得相關性,將文字分配給不同的主題或概念類別,或衡量他們的情緒立場。無論用於這些任務的具體方法是什麼(監督、半監督或無監督學習),都需要準確地標註資料來建立訓練集,或用其作為評估表現的黃金標準。

對此,人們通常的處理方式是招募研究助理,或是使用 MTurk 這樣的群眾外包平台。 OpenAI 在打造 ChatGPT 時,也將負面內容問題分包給了肯亞的資料標註機構,進行了大量標註訓練才敢正式上線。

由瑞士蘇黎世大學提交的這篇報告探討了大語言模型(LLM)在文本標註任務中的潛力,並重點關注了 2022 年 11 月發布的 ChatGPT。它證明了零樣本(即沒有任何額外訓練)ChatGPT 在分類任務上優於 MTurk 標註 ,而成本僅需人工的幾十分之一。

研究人員使用了先前的研究收集的 2382 個推文樣本。這些推文由訓練有素的註釋者(研究助理)標記為五種不同的任務:相關性、立場、主題和兩種框架檢測。實驗中,研究者將任務作為零樣本分類提交給ChatGPT,並同時給MTurk 上的眾包工作者,然後根據兩個基準評估了ChatGPT 的性能:相對於眾包平台上人類工作者的準確性,以及相對於研究助理註釋者的準確性。

結果發現,在五分之四的任務上,ChatGPT 的零樣本準確率高於 MTurk。對於所有任務,ChatGPT 的編碼器協議都超過了 MTurk 和訓練有素的註釋者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五個分類任務在 ChatGPT(25264 個註釋)上的成本約為 68 美元,在 MTurk(12632 個註釋)上的成本約為 657 美元。

這麼一算,ChatGPT 的每個註解成本約為 0.003 美元,即三分之一美分 —— 比 MTurk 便宜約 20 倍,而且品質更高。有鑑於此,我們現在已有可能對更多樣本進行註釋,或為監督學習建立大型訓練集。根據現有的測試,10 萬個註釋的成本約為 300 美元。

研究人員表示,雖然需要進一步研究以更好地了解ChatGPT 和其他LLM 如何在更廣泛的環境中發揮作用,但這些結果表明它們有可能改變研究人員進行資料註釋的方式,並破壞MTurk 等平台的部分商業模式。

實驗過程

研究人員使用了包含 2382 條推文的資料集,這些推文是先前針對內容審核相關任務的研究手動註釋的。具體來說,訓練有素的註釋者(研究助理)為五個具有不同類別數量的概念類別構建了黃金標準:推文與內容審核問題的相關性(相關/ 不相關);關於第230 條(美國1996 年《通訊規範法》的一部分)的立場,這是美國網路立法的關鍵部分;主題識別(六類);第一組框架(內容審核作為問題、解決方案或中性);以及第二組框架(十四類)。

然後,研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對於 ChatGPT 進行了四組標註。為了探索控制輸出隨機程度的 ChatGPT 溫度參數的影響,這裡使用預設值 1 和 0.2 進行註釋,這意味著隨機性較小。對於每個溫度值,研究人員進行了兩組註釋來計算 ChatGPT 的編碼器協議。

對於專家,該研究找到了兩名政治學研究生,對所有五項任務對推文進行註釋。對於每項任務,編碼員都獲得了相同指令集,其被要求逐個任務獨立地註釋推文。為了計算 ChatGPT 和 MTurk 的準確性,對比只考慮了兩個訓練有素的註釋者都同意的推文。

對於MTurk,研究的目標是選擇最好的工作者群體,特別是透過篩選被亞馬遜歸類為「MTurk 大師」、好評超過90% 且在美國的工作者。

研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。註記於 2023 年 3 月 9 日至 3 月 20 日之間進行。對於每個註釋任務,研究人員有意避免添加任何特定於 ChatGPT 的提示(prompt),例如「讓我們逐步思考」,以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。

在測試了幾種變體之後,人們決定使用這樣的提示將推文一條一條地提供給ChatGPT:「這是我選擇的推文,請將其標記為[任務特定說明(例如,說明中的主題之一)]。此外,該研究中每條推文收集了四個ChatGPT 回應,也為每條推文創建一個新的聊天會話,以確保ChatGPT 結果不受註釋歷史記錄的影響。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

#圖1. 與MTurk 上高分標註人相比,ChatGPT zero -shot 的文字標註能力。ChatGPT 在五項任務中的四項中的準確性優於MTurk。

在上圖中ChatGPT 有優勢的在四項任務中,在一種情況下(相關性)ChatGPT 略有優勢,但其性能與MTurk 非常相似。其他三種情況下(frams I、frams II 和Stance),ChatGPT 的性能比MTurk 高2.2 到3.4 倍。此外,考慮到任務的難度、類別的數量以及註釋是零樣本的事實,ChatGPT 的準確度總體來說綽綽有餘。

對於相關性,有兩個類別(相關/ 不相關),ChatGPT 的準確率為72.8%,而對於立場,有三個類別(正面/ 負面/ 中性)的準確率為78.7%。隨著類別數量的增加,準確性會降低,儘管任務的內在難度也有影響。關於編碼器協議,圖1 顯示ChatGPT 的表現非常高,當溫度參數設定為0.2 時,所有任務的表現都超過95%。這些值高於任何人類,包括訓練有素的註釋者。即使使用預設溫度值1(這意味著更多的隨機性),編碼器間一致性始終超過84%。編碼器間一致性和準確性之間的關係是正的,但很弱(皮爾遜相關係數:0.17)。儘管相關性僅基於五個數據點,但它表明較低的溫度值可能更適合註釋任務,因為它似乎可以提高結果的一致性而不會大幅降低準確性。

必須強調的是,對ChatGPT 進行測試非常困難。內容審核是一個複雜的主題,需要大量資源。除了立場之外,研究人員還為特定研究目的開發了概念類別。此外,一些任務涉及大量類別,然而ChatGPT 仍然達到了很高的準確率。

使用模型來註釋資料並不是什麼新鮮事,在使用大規模資料集的電腦科學研究中,人們經常會標註少量樣本然後用機器學習進行擴增。不過在表現超過人類之後,未來我們或許可以更信任來自 ChatGPT 的判斷了。

以上是ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

比特幣今日價格行情 比特幣今日價格行情 Apr 28, 2025 pm 07:39 PM

比特幣今日價格波動受宏觀經濟、政策、市場情緒等多因素影響,投資者需關注技術和基本面分析以做出明智決策。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

See all articles