ChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確です
予想外なことに、AI の進化後に排除される最初のグループは、AI のトレーニングを支援する人々です。
多くの NLP アプリケーションでは、さまざまなタスク、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、大量のデータに手動でアノテーションを付ける必要があります。規模と複雑さに応じて、これらのタスクは、MTurk などのプラットフォームでクラウドソーシングされた作業者や、研究アシスタントなどの訓練を受けたアノテーターによって実行される場合があります。
言語ラージ モデル (LLM) は、特定の規模に達すると「出現」する可能性がある、つまり、以前は予見できなかった新しい機能を獲得できることがわかっています。 AI の新たな流行を促進する大規模なモデルとして、ChatGPT の機能は、データ セットのラベル付けや自分自身のトレーニングなど、多くのタスクにおける人々の期待を上回っています。
最近、チューリッヒ大学の研究者らは、関連性、スタンス、トピック、フレーム検出などの複数の注釈タスクにおいて、ChatGPT がクラウドソーシング作業プラットフォームや人間の作業よりも優れていることを実証しました。
さらに、研究者らは計算を行った。ChatGPT のコストは注釈あたり 0.003 ドル未満であり、MTurk よりも約 20 倍安い。これらの結果は、大規模な言語モデルがテキスト分類の効率を大幅に向上させる可能性を示しています。
#紙のリンク: https://arxiv.org/abs/2303.15056
研究の詳細多くの NLP アプリケーションでは、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、高品質の注釈付きデータが必要です。たとえば、研究者は、ノイズの多いソーシャル メディア データを関連性のためにフィルタリングしたり、テキストを別のトピックや概念的なカテゴリに割り当てたり、感情的なスタンスを測定したりする必要がある場合があります。これらのタスクに使用される特定の方法 (教師あり、半教師あり、または教師なし学習) に関係なく、トレーニング セットを構築したり、パフォーマンスを評価するためのゴールド スタンダードとして使用したりするには、正確にラベル付けされたデータが必要です。
これに対処する一般的な方法は、研究助手を募集するか、MTurk のようなクラウドソーシング プラットフォームを使用することです。 OpenAI が ChatGPT を構築したとき、ネガティブ コンテンツの問題をケニアのデータ アノテーション機関に下請け委託し、正式にリリースされる前に多くのアノテーション トレーニングを実施しました。
スイスのチューリッヒ大学によって提出されたこのレポートは、2022 年 11 月にリリースされた ChatGPT に焦点を当て、テキスト アノテーション タスクにおける大規模言語モデル (LLM) の可能性を探ります。これは、ゼロショット (つまり、追加のトレーニングなし) ChatGPT が、手作業のコストのわずか数十分の 1 で、分類タスクにおいて MTurk アノテーションを上回っていることを証明しています。
研究者らは、以前の研究で収集した 2,382 件のツイートのサンプルを使用しました。ツイートには、関連性、スタンス、トピック、2 フレーム検出という 5 つの異なるタスクについて、訓練を受けたアノテーター (調査アシスタント) によってラベルが付けられました。実験では、研究者はタスクをゼロショット分類として ChatGPT に送信し、同時に MTurk 上のクラウドソーシング ワーカーにも送信し、次に 2 つのベンチマークに基づいて ChatGPT のパフォーマンスを評価しました。クラウドソーシング プラットフォーム上の人間のワーカーの精度との比較、研究アシスタントのアノテーターと比較した精度。
5 つのタスクのうち 4 つにおいて、ChatGPT は MTurk よりもゼロサンプル精度が高いことがわかりました。 ChatGPT のエンコーダ合意は、MTurk およびすべてのタスクについて訓練されたアノテーターの合意を上回っています。さらに、コストの点では、ChatGPT は MTurk よりもはるかに安価です。5 つの分類タスクのコストは、ChatGPT (注釈 25,264) では約 68 ドル、MTurk (注釈 12,632) では約 657 ドルです。
つまり、ChatGPT のアノテーションあたりのコストは約 0.003 ドル、つまり 3 分の 1 セントになります。MTurk よりも約 20 倍安く、高品質です。これを考慮すると、より多くのサンプルに注釈を付けたり、教師あり学習用の大規模なトレーニング セットを作成したりできるようになりました。既存のテストに基づくと、100,000 個の注釈のコストは約 300 ドルです。
研究者らは、ChatGPT やその他の LLM がより広範な文脈でどのように機能するかをよりよく理解するにはさらなる研究が必要であるが、これらの結果は研究者の行動方法を変える可能性があることを示唆していると述べています。データには注釈が付けられ、MTurk のようなプラットフォームのビジネス モデルの一部を破壊します。
実験プロセス
研究者らは、コンテンツ管理に関連するタスクに関する以前の研究から手動で注釈が付けられた 2,382 件のツイートのデータセットを使用しました。具体的には、訓練を受けたアノテーター (研究アシスタント) が、さまざまな数のカテゴリを持つ 5 つの概念的なカテゴリのゴールド スタンダードを構築しました: ツイートとコンテンツモデレーションの質問との関連性 (関連/無関連)、第 230 条 (1996 年の米国通信品位法の一部としての位置づけ) に関するもの、米国のインターネット法の重要な部分、トピックの特定 (6 つのカテゴリ)、グループ 1 のフレームワーク (問題、解決策、または中立的なコンテンツのモデレーション)、およびセクション 1 の 2 セットのフレームワーク (14 のカテゴリ)。
研究者らは次に、ChatGPT と MTurk で募集したクラウドソーシングの労働者を使用して、これらとまったく同じ分類を実行しました。 ChatGPT に対して 4 セットのアノテーションが作成されました。出力のランダム性の程度を制御する ChatGPT 温度パラメーターの影響を調査するために、ここではランダム性が低いことを意味するデフォルト値 1 と 0.2 で注釈が付けられています。研究者らは、温度値ごとに 2 セットのアノテーションを実行して、ChatGPT のエンコーダ一致を計算しました。
専門家向けに説明すると、この研究では 2 人の政治学の大学院生が 5 つのタスクすべてについてツイートに注釈を付けていることが判明しました。各タスクについて、プログラマーには同じ一連の指示が与えられ、タスクごとに独立してツイートに注釈を付けるように求められました。 ChatGPT と MTurk の精度を計算するために、比較では両方のトレーニングを受けたアノテーターが同意したツイートのみを考慮しました。
MTurk の場合、調査の目標は、特に Amazon によって「MTurk マスター」として分類され、90% 以上の肯定的な評価を得ている従業員をスクリーニングすることによって、最良の従業員グループを選択することです。レビュー、そして米国での仕事。
この調査では、ChatGPT API の「gpt-3.5-turbo」バージョンを使用してツイートを分類します。注釈は 2023 年 3 月 9 日から 3 月 20 日までの間に行われました。研究者らは、各注釈タスクについて、ChatGPT と MTurk クラウドワーカー間の比較可能性を確保するために、「段階的に考えてみましょう」などの ChatGPT 固有のプロンプトの追加を意図的に避けました。
いくつかのバリエーションをテストした後、人々は次のようなプロンプトを付けてツイートを 1 つずつ ChatGPT にフィードすることにしました。「これは私が選択したツイートです。[タスク固有の指示のためにマークしてください] (例: 説明書のトピックの 1 つ)] さらに、この研究ではツイートごとに 4 つの ChatGPT 応答が収集され、ChatGPT の結果が注釈履歴の影響を受けないことを保証するために、ツイートごとに新しいチャット セッションも作成されました。
図 1. MTurk ショットのテキスト アノテーション機能で高得点のアノテーターと比較した ChatGPT ゼロ。ChatGPT は、MTurk よりも精度が優れています。
上の図では、ChatGPT が有利です。4 つのタスクのうち、1 つのケース (関連性) では、ChatGPT がわずかに有利です。他の 3 つのケース (frams I、frams II、Stance) では、ChatGPT は MTurk を 2.2 ~ 3.4 倍上回っています。さらに、タスクの難易度、クラスの数、およびアノテーションがゼロサンプルであるという事実から、ChatGPT の精度は一般に十分以上です。
相関関係については 2 つのカテゴリ (関連/無関係) があり、ChatGPT の精度は次のとおりです。 72.8%、スタンスの場合は3つのカテゴリー(ポジティブ・ネガティブ・ニュートラル)で78.7%の精度となり、カテゴリーの数が増えると精度は低下するが、タスク固有の難易度も影響する。図 1 は、ChatGPT のパフォーマンスが非常に高く、温度パラメーターが 0.2 に設定されている場合にすべてのタスクで 95% を超えることを示しています。これらの値は、アノテーターで訓練されたものを含むどの人間よりも高いです。デフォルトを使用した場合でも、温度値が 1 (ランダム性が高いことを意味します) の場合、コーダー間の一致度は常に 84% を超えます。コーダー間の一致度と精度の関係は正ですが、弱いです (ピアソン相関係数: 0.17)。相関関係はのみに基づいています。 5 つのデータ ポイントでは、精度を大幅に低下させることなく結果の一貫性が向上するため、より低い温度値の方がアノテーション タスクに適している可能性があることが示唆されています。
# ChatGPT のテストは非常に難しいことが強調されます。コンテンツのモデレーションは、多大なリソースを必要とする複雑なトピックです。研究者は、立場に加えて、特定の研究目的のカテゴリの概念を開発しました。さらに、一部のタスクには多数のカテゴリが関係しますが、ChatGPT はまだ高い精度を実現します。モデルを使用してデータに注釈を付けることは、新しいことではありません。大規模なデータセットを使用するコンピューター サイエンスの研究では、少数のサンプルにラベルを付け、機械学習でそれらを増幅することがよくあります。しかし、人間を上回ったことで、将来的にはChatGPTの判断をより信頼できるようになるかもしれません。
以上がChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して
