ChatGPT要把數據標註產業幹掉了？比人便宜20倍，而且還準-人工智慧-PHP中文網

#研究細節

實驗過程

首頁

科技週邊

人工智慧

ChatGPT要把數據標註產業幹掉了？比人便宜20倍，而且還準

PHPz

Apr 08, 2023 am 10:21 AM

ai 數據

沒想到，AI 進化之後淘汰掉的第一批人，就是幫 AI 訓練的人。

許多 NLP 應用程式需要為各種任務手動進行大量資料註釋，特別是訓練分類器或評估無監督模型的效能。根據規模和複雜程度，這些任務可能由眾包工作者在 MTurk 等平台上以及訓練有素的標註人（如研究助理）執行。

我們知道，語言大模型（LLM）在規模到達一定程度之後可以「湧現」— 即獲得先前無法預料的新能力。作為推動 AI 新一輪爆發的大模型，ChatGPT 在許多任務上的能力也超出了人們的預期，其中就包括為資料集做標註這種自己訓練自己的工作。

近日，來自蘇黎世大學的研究者證明了ChatGPT 在多項註釋任務（包括相關性、立場、主題和框架檢測）上優於眾包工作平台和人類工作助理。

此外，研究人員也做了計算：ChatGPT 的每條註釋成本不到 0.003 美元 —— 大約比 MTurk 便宜 20 倍。這些結果顯示了大型語言模型在大幅提高文字分類效率的潛力。

ChatGPT要把數據標註產業幹掉了？比人便宜20倍，而且還準

論文連結：https://arxiv.org/abs/2303.15056

#研究細節

許多NLP 應用程式需要高品質的標註數據，特別是用於訓練分類器或評估無監督模型的性能。例如，研究人員有時需要過濾吵雜的社群媒體資料以獲得相關性，將文字分配給不同的主題或概念類別，或衡量他們的情緒立場。無論用於這些任務的具體方法是什麼（監督、半監督或無監督學習），都需要準確地標註資料來建立訓練集，或用其作為評估表現的黃金標準。

對此，人們通常的處理方式是招募研究助理，或是使用 MTurk 這樣的群眾外包平台。 OpenAI 在打造 ChatGPT 時，也將負面內容問題分包給了肯亞的資料標註機構，進行了大量標註訓練才敢正式上線。

由瑞士蘇黎世大學提交的這篇報告探討了大語言模型（LLM）在文本標註任務中的潛力，並重點關注了 2022 年 11 月發布的 ChatGPT。它證明了零樣本（即沒有任何額外訓練）ChatGPT 在分類任務上優於 MTurk 標註，而成本僅需人工的幾十分之一。

研究人員使用了先前的研究收集的 2382 個推文樣本。這些推文由訓練有素的註釋者（研究助理）標記為五種不同的任務：相關性、立場、主題和兩種框架檢測。實驗中，研究者將任務作為零樣本分類提交給ChatGPT，並同時給MTurk 上的眾包工作者，然後根據兩個基準評估了ChatGPT 的性能：相對於眾包平台上人類工作者的準確性，以及相對於研究助理註釋者的準確性。

結果發現，在五分之四的任務上，ChatGPT 的零樣本準確率高於 MTurk。對於所有任務，ChatGPT 的編碼器協議都超過了 MTurk 和訓練有素的註釋者。此外在成本上，ChatGPT 比 MTurk 便宜得多：五個分類任務在 ChatGPT（25264 個註釋）上的成本約為 68 美元，在 MTurk（12632 個註釋）上的成本約為 657 美元。

這麼一算，ChatGPT 的每個註解成本約為 0.003 美元，即三分之一美分 —— 比 MTurk 便宜約 20 倍，而且品質更高。有鑑於此，我們現在已有可能對更多樣本進行註釋，或為監督學習建立大型訓練集。根據現有的測試，10 萬個註釋的成本約為 300 美元。

研究人員表示，雖然需要進一步研究以更好地了解ChatGPT 和其他LLM 如何在更廣泛的環境中發揮作用，但這些結果表明它們有可能改變研究人員進行資料註釋的方式，並破壞MTurk 等平台的部分商業模式。

實驗過程

研究人員使用了包含 2382 條推文的資料集，這些推文是先前針對內容審核相關任務的研究手動註釋的。具體來說，訓練有素的註釋者（研究助理）為五個具有不同類別數量的概念類別構建了黃金標準：推文與內容審核問題的相關性（相關/ 不相關）；關於第230 條（美國1996 年《通訊規範法》的一部分）的立場，這是美國網路立法的關鍵部分；主題識別（六類）；第一組框架（內容審核作為問題、解決方案或中性）；以及第二組框架（十四類）。

然後，研究人員使用 ChatGPT 和在 MTurk 上招募的眾包工作者進行了這些完全相同的分類。對於 ChatGPT 進行了四組標註。為了探索控制輸出隨機程度的 ChatGPT 溫度參數的影響，這裡使用預設值 1 和 0.2 進行註釋，這意味著隨機性較小。對於每個溫度值，研究人員進行了兩組註釋來計算 ChatGPT 的編碼器協議。

對於專家，該研究找到了兩名政治學研究生，對所有五項任務對推文進行註釋。對於每項任務，編碼員都獲得了相同指令集，其被要求逐個任務獨立地註釋推文。為了計算 ChatGPT 和 MTurk 的準確性，對比只考慮了兩個訓練有素的註釋者都同意的推文。

對於MTurk，研究的目標是選擇最好的工作者群體，特別是透過篩選被亞馬遜歸類為「MTurk 大師」、好評超過90% 且在美國的工作者。

研究使用「gpt-3.5-turbo」版本的 ChatGPT API 對推文進行分類。註記於 2023 年 3 月 9 日至 3 月 20 日之間進行。對於每個註釋任務，研究人員有意避免添加任何特定於 ChatGPT 的提示（prompt），例如「讓我們逐步思考」，以確保 ChatGPT 和 MTurk 眾包工作者之間的可比性。

在測試了幾種變體之後，人們決定使用這樣的提示將推文一條一條地提供給ChatGPT：「這是我選擇的推文，請將其標記為[任務特定說明（例如，說明中的主題之一）]。此外，該研究中每條推文收集了四個ChatGPT 回應，也為每條推文創建一個新的聊天會話，以確保ChatGPT 結果不受註釋歷史記錄的影響。

ChatGPT要把數據標註產業幹掉了？比人便宜20倍，而且還準

#圖1. 與MTurk 上高分標註人相比，ChatGPT zero -shot 的文字標註能力。ChatGPT 在五項任務中的四項中的準確性優於MTurk。

在上圖中ChatGPT 有優勢的在四項任務中，在一種情況下（相關性）ChatGPT 略有優勢，但其性能與MTurk 非常相似。其他三種情況下（frams I、frams II 和Stance），ChatGPT 的性能比MTurk 高2.2 到3.4 倍。此外，考慮到任務的難度、類別的數量以及註釋是零樣本的事實，ChatGPT 的準確度總體來說綽綽有餘。

對於相關性，有兩個類別（相關/ 不相關），ChatGPT 的準確率為72.8%，而對於立場，有三個類別（正面/ 負面/ 中性）的準確率為78.7%。隨著類別數量的增加，準確性會降低，儘管任務的內在難度也有影響。關於編碼器協議，圖1 顯示ChatGPT 的表現非常高，當溫度參數設定為0.2 時，所有任務的表現都超過95%。這些值高於任何人類，包括訓練有素的註釋者。即使使用預設溫度值1（這意味著更多的隨機性），編碼器間一致性始終超過84%。編碼器間一致性和準確性之間的關係是正的，但很弱（皮爾遜相關係數：0.17）。儘管相關性僅基於五個數據點，但它表明較低的溫度值可能更適合註釋任務，因為它似乎可以提高結果的一致性而不會大幅降低準確性。

必須強調的是，對ChatGPT 進行測試非常困難。內容審核是一個複雜的主題，需要大量資源。除了立場之外，研究人員還為特定研究目的開發了概念類別。此外，一些任務涉及大量類別，然而ChatGPT 仍然達到了很高的準確率。

使用模型來註釋資料並不是什麼新鮮事，在使用大規模資料集的電腦科學研究中，人們經常會標註少量樣本然後用機器學習進行擴增。不過在表現超過人類之後，未來我們或許可以更信任來自 ChatGPT 的判斷了。

以上是ChatGPT要把數據標註產業幹掉了？比人便宜20倍，而且還準的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：