目錄
#研究細節
實驗過程
首頁 科技週邊 人工智慧 ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

Apr 08, 2023 am 10:21 AM
ai 數據

沒想到,AI 進化之後淘汰掉的第一批人,就是幫 AI 訓練的人。

許多 NLP 應用程式需要為各種任務手動進行大量資料註釋,特別是訓練分類器或評估無監督模型的效能。根據規模和複雜程度,這些任務可能由眾包工作者在 MTurk 等平台上以及訓練有素的標註人(如研究助理)執行。

我們知道,語言大模型(LLM)在規模到達一定程度之後可以「湧現」— 即獲得先前無法預料的新能力。作為推動 AI 新一輪爆發的大模型,ChatGPT 在許多任務上的能力也超出了人們的預期,其中就包括為資料集做標註這種自己訓練自己的工作。

近日,來自蘇黎世大學的研究者證明了ChatGPT 在多項註釋任務(包括相關性、立場、主題和框架檢測)上優於眾包工作平台和人類工作助理。

此外,研究人員也做了計算:ChatGPT 的每條註釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結果顯示了大型語言模型在大幅提高文字分類效率的潛力。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

論文連結:https://arxiv.org/abs/2303.15056

#研究細節

許多NLP 應用程式需要高品質的標註數據,特別是用於訓練分類器或評估無監督模型的性能。例如,研究人員有時需要過濾吵雜的社群媒體資料以獲得相關性,將文字分配給不同的主題或概念類別,或衡量他們的情緒立場。無論用於這些任務的具體方法是什麼(監督、半監督或無監督學習),都需要準確地標註資料來建立訓練集,或用其作為評估表現的黃金標準。

對此,人們通常的處理方式是招募研究助理,或是使用 MTurk 這樣的群眾外包平台。 OpenAI 在打造 ChatGPT 時,也將負面內容問題分包給了肯亞的資料標註機構,進行了大量標註訓練才敢正式上線。

由瑞士蘇黎世大學提交的這篇報告探討了大語言模型(LLM)在文本標註任務中的潛力,並重點關注了 2022 年 11 月發布的 ChatGPT。它證明了零樣本(即沒有任何額外訓練)ChatGPT 在分類任務上優於 MTurk 標註 ,而成本僅需人工的幾十分之一。

研究人員使用了先前的研究收集的 2382 個推文樣本。這些推文由訓練有素的註釋者(研究助理)標記為五種不同的任務:相關性、立場、主題和兩種框架檢測。實驗中,研究者將任務作為零樣本分類提交給ChatGPT,並同時給MTurk 上的眾包工作者,然後根據兩個基準評估了ChatGPT 的性能:相對於眾包平台上人類工作者的準確性,以及相對於研究助理註釋者的準確性。

結果發現,在五分之四的任務上,ChatGPT 的零樣本準確率高於 MTurk。對於所有任務,ChatGPT 的編碼器協議都超過了 MTurk 和訓練有素的註釋者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五個分類任務在 ChatGPT(25264 個註釋)上的成本約為 68 美元,在 MTurk(12632 個註釋)上的成本約為 657 美元。

這麼一算,ChatGPT 的每個註解成本約為 0.003 美元,即三分之一美分 —— 比 MTurk 便宜約 20 倍,而且品質更高。有鑑於此,我們現在已有可能對更多樣本進行註釋,或為監督學習建立大型訓練集。根據現有的測試,10 萬個註釋的成本約為 300 美元。

研究人員表示,雖然需要進一步研究以更好地了解ChatGPT 和其他LLM 如何在更廣泛的環境中發揮作用,但這些結果表明它們有可能改變研究人員進行資料註釋的方式,並破壞MTurk 等平台的部分商業模式。

實驗過程

研究人員使用了包含 2382 條推文的資料集,這些推文是先前針對內容審核相關任務的研究手動註釋的。具體來說,訓練有素的註釋者(研究助理)為五個具有不同類別數量的概念類別構建了黃金標準:推文與內容審核問題的相關性(相關/ 不相關);關於第230 條(美國1996 年《通訊規範法》的一部分)的立場,這是美國網路立法的關鍵部分;主題識別(六類);第一組框架(內容審核作為問題、解決方案或中性);以及第二組框架(十四類)。

然後,研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對於 ChatGPT 進行了四組標註。為了探索控制輸出隨機程度的 ChatGPT 溫度參數的影響,這裡使用預設值 1 和 0.2 進行註釋,這意味著隨機性較小。對於每個溫度值,研究人員進行了兩組註釋來計算 ChatGPT 的編碼器協議。

對於專家,該研究找到了兩名政治學研究生,對所有五項任務對推文進行註釋。對於每項任務,編碼員都獲得了相同指令集,其被要求逐個任務獨立地註釋推文。為了計算 ChatGPT 和 MTurk 的準確性,對比只考慮了兩個訓練有素的註釋者都同意的推文。

對於MTurk,研究的目標是選擇最好的工作者群體,特別是透過篩選被亞馬遜歸類為「MTurk 大師」、好評超過90% 且在美國的工作者。

研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。註記於 2023 年 3 月 9 日至 3 月 20 日之間進行。對於每個註釋任務,研究人員有意避免添加任何特定於 ChatGPT 的提示(prompt),例如「讓我們逐步思考」,以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。

在測試了幾種變體之後,人們決定使用這樣的提示將推文一條一條地提供給ChatGPT:「這是我選擇的推文,請將其標記為[任務特定說明(例如,說明中的主題之一)]。此外,該研究中每條推文收集了四個ChatGPT 回應,也為每條推文創建一個新的聊天會話,以確保ChatGPT 結果不受註釋歷史記錄的影響。

ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準

#圖1. 與MTurk 上高分標註人相比,ChatGPT zero -shot 的文字標註能力。ChatGPT 在五項任務中的四項中的準確性優於MTurk。

在上圖中ChatGPT 有優勢的在四項任務中,在一種情況下(相關性)ChatGPT 略有優勢,但其性能與MTurk 非常相似。其他三種情況下(frams I、frams II 和Stance),ChatGPT 的性能比MTurk 高2.2 到3.4 倍。此外,考慮到任務的難度、類別的數量以及註釋是零樣本的事實,ChatGPT 的準確度總體來說綽綽有餘。

對於相關性,有兩個類別(相關/ 不相關),ChatGPT 的準確率為72.8%,而對於立場,有三個類別(正面/ 負面/ 中性)的準確率為78.7%。隨著類別數量的增加,準確性會降低,儘管任務的內在難度也有影響。關於編碼器協議,圖1 顯示ChatGPT 的表現非常高,當溫度參數設定為0.2 時,所有任務的表現都超過95%。這些值高於任何人類,包括訓練有素的註釋者。即使使用預設溫度值1(這意味著更多的隨機性),編碼器間一致性始終超過84%。編碼器間一致性和準確性之間的關係是正的,但很弱(皮爾遜相關係數:0.17)。儘管相關性僅基於五個數據點,但它表明較低的溫度值可能更適合註釋任務,因為它似乎可以提高結果的一致性而不會大幅降低準確性。

必須強調的是,對ChatGPT 進行測試非常困難。內容審核是一個複雜的主題,需要大量資源。除了立場之外,研究人員還為特定研究目的開發了概念類別。此外,一些任務涉及大量類別,然而ChatGPT 仍然達到了很高的準確率。

使用模型來註釋資料並不是什麼新鮮事,在使用大規模資料集的電腦科學研究中,人們經常會標註少量樣本然後用機器學習進行擴增。不過在表現超過人類之後,未來我們或許可以更信任來自 ChatGPT 的判斷了。

以上是ChatGPT要把數據標註產業幹掉了?比人便宜20倍,而且還準的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles