Jadual Kandungan
Butiran Penyelidikan
Prosedur Eksperimen
Rumah Peranti teknologi AI Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

Apr 08, 2023 am 10:21 AM
ai data

Tidak disangka-sangka, kumpulan pertama orang yang tersingkir selepas AI berkembang ialah orang yang membantu melatih AI.

Banyak aplikasi NLP memerlukan anotasi manual bagi sejumlah besar data untuk pelbagai tugas, terutamanya pengelas latihan atau menilai prestasi model tanpa pengawasan. Bergantung pada skala dan kerumitan, tugas-tugas ini mungkin dilakukan oleh pekerja sumber ramai pada platform seperti MTurk serta anotasi terlatih seperti pembantu penyelidik.

Kami tahu bahawa model bahasa besar (LLM) boleh "muncul" selepas mencapai skala tertentu - iaitu, mereka boleh memperoleh keupayaan baharu yang sebelum ini tidak dijangka. Sebagai model besar yang mempromosikan wabak baharu AI, keupayaan ChatGPT dalam banyak tugas telah melebihi jangkaan orang ramai, termasuk melabel set data dan melatih diri anda.

Baru-baru ini, penyelidik dari Universiti Zurich telah menunjukkan bahawa ChatGPT mengatasi platform kerja penyumberan ramai dan kerja manusia dalam pelbagai tugas anotasi, termasuk perkaitan, pendirian, topik dan pembantu pengesanan.

Selain itu, penyelidik melakukan pengiraan: Kos ChatGPT kurang daripada $0.003 setiap anotasi — kira-kira 20 kali lebih murah daripada MTurk. Keputusan ini menunjukkan potensi model bahasa yang besar untuk meningkatkan kecekapan pengelasan teks.

Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

Pautan kertas: ​https://arxiv.org/abs/2303.15056​

Butiran Penyelidikan

Banyak aplikasi NLP memerlukan data beranotasi berkualiti tinggi, terutamanya untuk pengelas latihan atau menilai prestasi model tanpa pengawasan. Sebagai contoh, penyelidik kadangkala perlu menapis data media sosial yang bising untuk kaitan, menetapkan teks kepada topik atau kategori konsep yang berbeza, atau mengukur pendirian emosi mereka. Tidak kira kaedah khusus yang digunakan untuk tugasan ini (pembelajaran diselia, separa penyeliaan atau tanpa penyeliaan), data yang dilabel dengan tepat diperlukan untuk membina set latihan atau menggunakannya sebagai standard emas untuk menilai prestasi.

Cara biasa orang menangani perkara ini ialah merekrut pembantu penyelidik atau menggunakan platform sumber ramai seperti MTurk. Apabila OpenAI membina ChatGPT, ia turut mengurangkan masalah kandungan negatif kepada agensi anotasi data di Kenya, dan menjalankan banyak latihan anotasi sebelum ia dilancarkan secara rasmi.

Laporan yang diserahkan oleh Universiti Zurich di Switzerland ini meneroka potensi model bahasa besar (LLM) dalam tugas anotasi teks, dengan tumpuan pada ChatGPT yang dikeluarkan pada November 2022. Ia membuktikan bahawa pukulan sifar (iaitu tanpa sebarang latihan tambahan) ChatGPT mengatasi anotasi MTurk pada tugas pengelasan pada hanya beberapa persepuluh daripada kos buruh manual.

Para penyelidik menggunakan sampel 2,382 tweet yang dikumpulkan dalam kajian terdahulu. Tweet tersebut telah dilabelkan oleh annotator terlatih (pembantu penyelidik) untuk lima tugas berbeza: perkaitan, pendirian, topik dan dua pengesanan bingkai. Dalam percubaan, penyelidik menyerahkan tugas kepada ChatGPT sebagai klasifikasi sifar pukulan dan pada masa yang sama kepada pekerja penyumberan ramai di MTurk, dan kemudian menilai prestasi ChatGPT berdasarkan dua penanda aras: berbanding dengan ketepatan pekerja manusia pada platform penyumberan ramai, dan ketepatan berbanding dengan anotasi pembantu penyelidik.

Didapati bahawa pada empat daripada lima tugasan, ChatGPT mempunyai ketepatan sampel sifar yang lebih tinggi daripada MTurk. Untuk semua tugasan, perjanjian pengekod ChatGPT melebihi perjanjian MTurk dan anotasi terlatih. Tambahan pula, dari segi kos, ChatGPT jauh lebih murah daripada MTurk: lima tugas klasifikasi berharga kira-kira $68 pada ChatGPT (25264 anotasi) dan kira-kira $657 pada MTurk (12632 anotasi).

Itu meletakkan kos setiap anotasi ChatGPT pada kira-kira $0.003, atau satu pertiga daripada satu sen — kira-kira 20 kali lebih murah daripada MTurk, dan dengan kualiti yang lebih tinggi. Memandangkan ini, kini anda boleh menganotasi lebih banyak sampel atau membuat set latihan yang besar untuk pembelajaran diselia. Berdasarkan ujian sedia ada, 100,000 anotasi berharga kira-kira $300.

Walaupun penyelidikan lanjut diperlukan untuk lebih memahami cara ChatGPT dan LLM lain berfungsi dalam konteks yang lebih luas, keputusan ini mencadangkan mereka berpotensi mengubah cara penyelidik menjalankan Cara data dianotasi, dan mengganggu sebahagian daripada model perniagaan platform seperti MTurk.

Prosedur Eksperimen

Para penyelidik menggunakan set data sebanyak 2382 tweet yang diberi anotasi secara manual daripada kajian terdahulu tentang tugasan yang berkaitan dengan penyederhanaan kandungan. Khususnya, annotator terlatih (pembantu penyelidik) membina piawaian emas untuk lima kategori konsep dengan bilangan kategori yang berbeza-beza: kaitan tweet dengan soalan penyederhanaan kandungan (berkaitan/tidak berkaitan dengan Perkara 230 (kedudukan sebagai sebahagian daripada Akta Kesopanan Komunikasi A.S. 1996) , bahagian penting perundangan Internet A.S. (enam kategori rangka kerja Kumpulan 1 (penyederhanaan kandungan sebagai masalah, penyelesaian atau neutral dan Bahagian 1 Dua set rangka kerja);

Para penyelidik kemudian menjalankan klasifikasi yang sama menggunakan ChatGPT dan pekerja sumber ramai yang diambil di MTurk. Empat set anotasi telah dibuat untuk ChatGPT. Untuk meneroka kesan parameter suhu ChatGPT yang mengawal tahap rawak dalam output, ia dianotasi di sini dengan nilai lalai 1 dan 0.2, yang membayangkan kurang rawak. Untuk setiap nilai suhu, penyelidik melakukan dua set anotasi untuk mengira perjanjian pengekod ChatGPT.

Bagi pakar, kajian itu mendapati dua pelajar siswazah sains politik membuat anotasi tweet untuk kesemua lima tugasan. Untuk setiap tugas, pengkod diberi set arahan yang sama dan diminta untuk memberi anotasi tweet secara bebas berdasarkan tugas demi tugas. Untuk mengira ketepatan ChatGPT dan MTurk, perbandingan hanya mempertimbangkan tweet yang dipersetujui oleh kedua-dua annotator terlatih.

Untuk MTurk, matlamat penyelidikan adalah untuk memilih kumpulan pekerja terbaik, terutamanya mereka yang diklasifikasikan oleh Amazon sebagai "Master MTurk", mempunyai lebih daripada 90% ulasan positif, dan bekerja di Amerika Syarikat yang.

Kajian ini menggunakan versi "gpt-3.5-turbo" API ChatGPT untuk mengklasifikasikan tweet. Anotasi berlaku antara 9 Mac dan 20 Mac 2023. Untuk setiap tugas anotasi, penyelidik sengaja mengelak daripada menambah sebarang gesaan khusus ChatGPT seperti "mari kita fikir langkah demi langkah" untuk memastikan perbandingan antara ChatGPT dan pekerja ramai MTurk.

Selepas menguji beberapa variasi, orang memutuskan untuk menyuap tweet ke ChatGPT satu demi satu dengan gesaan seperti ini: "Ini adalah tweet yang saya pilih, sila tandakannya Selain itu, empat respons ChatGPT telah dikumpulkan untuk setiap tweet dalam kajian ini, dan sesi sembang baharu juga dibuat untuk setiap tweet untuk memastikan hasil ChatGPT Tidak terjejas oleh sejarah anotasi

Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat

. Rajah 1. ChatGPT sifar berbanding dengan pencatat skor tinggi pada keupayaan anotasi teks -shot ChatGPT adalah lebih baik daripada MTurk dalam empat daripada lima tugasan di atas, ChatGPT mempunyai kelebihan empat tugasan, ChatGPT mempunyai sedikit kelebihan dalam satu kes (kaitan), tetapi prestasinya sangat serupa dengan MTurk Dalam tiga kes lain (frams I, frams II, dan Stance), ChatGPT mengatasi MTurk sebanyak 2.2 hingga 2.2%. 3.4 kali Selain itu, memandangkan kesukaran tugas, bilangan kelas, dan fakta bahawa anotasi adalah sifar-sampel, ketepatan ChatGPT secara amnya lebih daripada mencukupi untuk korelasi, terdapat dua kategori (berkaitan/berkaitan. tidak relevan), ChatGPT mempunyai ketepatan 72.8%, manakala sebagai contoh, terdapat tiga kategori (positif/negatif/neutral) dengan ketepatan 78.7%. Tugasan juga mempunyai kesan. Mengenai protokol pengekod, Rajah 1 menunjukkan bahawa prestasi ChatGPT adalah sangat tinggi, dengan prestasi melebihi 95% untuk semua tugas apabila parameter suhu ditetapkan kepada 0.2 nilai ini lebih tinggi daripada mana-mana manusia, termasuk yang terlatih. Hubungan antara persetujuan antara pengekod dan ketepatan adalah positif tetapi lemah (Pekali korelasi Pearson: 0.17 Walaupun korelasi hanya berdasarkan lima titik data, ia menunjukkan bahawa nilai suhu yang lebih rendah mungkin lebih sesuai untuk tugas anotasi, kerana ia seolah-olah meningkatkan ketekalan keputusan tanpa mengurangkan ketepatan dengan ketara 🎜>Perlu ditegaskan bahawa ujian ChatGPT ialah topik yang kompleks yang memerlukan sumber yang signifikan dan penyelidik membangunkan konsep untuk. tujuan penyelidikan khusus Selain itu, beberapa tugas melibatkan sejumlah besar kategori, namun ChatGPT masih mencapai ketepatan yang tinggi.

Menggunakan model untuk menganotasi data bukanlah perkara baharu dalam penyelidikan sains komputer menggunakan set data berskala besar, orang sering melabelkan sebilangan kecil sampel dan kemudian menguatkannya dengan pembelajaran mesin. Walau bagaimanapun, selepas mengatasi prestasi manusia, kami mungkin boleh lebih mempercayai penilaian daripada ChatGPT pada masa hadapan.

Atas ialah kandungan terperinci Adakah ChatGPT akan membunuh industri anotasi data? 20 kali lebih murah daripada manusia dan lebih tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency 'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency Apr 21, 2025 pm 02:48 PM

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apr 21, 2025 pm 11:39 PM

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Apr 21, 2025 pm 01:03 PM

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Apr 21, 2025 am 08:57 AM

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

Platform Perdagangan Web3 Ranking_Web3 Global Exchanges Top Ten Ringkasan Platform Perdagangan Web3 Ranking_Web3 Global Exchanges Top Ten Ringkasan Apr 21, 2025 am 10:45 AM

Binance adalah tuan rumah ekosistem perdagangan aset digital global, dan ciri -cirinya termasuk: 1. Jumlah dagangan harian purata melebihi $ 150 bilion, menyokong 500 pasangan perdagangan, yang meliputi 98% mata wang arus perdana; 2. Matriks inovasi meliputi pasaran Derivatif, susun atur Web3 dan sistem pendidikan; 3. Kelebihan teknikal adalah enjin yang sepadan dengan milisaat, dengan jumlah pemprosesan puncak sebanyak 1.4 juta transaksi sesaat; 4. Kemajuan pematuhan memegang lesen 15 negara dan menetapkan entiti yang mematuhi di Eropah dan Amerika Syarikat.

Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Apr 21, 2025 pm 11:24 PM

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior

Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Apr 21, 2025 pm 06:24 PM

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

See all articles