Rumah Peranti teknologi AI Berapa banyak syarikat pelabelan AI yang akan membunuh 'langkah besar' Google?

Berapa banyak syarikat pelabelan AI yang akan membunuh 'langkah besar' Google?

Sep 20, 2023 pm 12:25 PM
Google ai pelabelan Banyak ai

Sebuah bengkel kecil buatan tangan akhirnya tidak sepadan dengan barisan pemasangan kilang.

Jika AI generatif semasa adalah kanak-kanak yang sedang berkembang pesat, maka data berterusan adalah makanan yang memberi makan kepada pertumbuhannya.

Anotasi data ialah proses membuat "makanan" ini

Namun, proses ini sungguh memenatkan dan memenatkan.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

"Annotator" yang melakukan anotasi bukan sahaja perlu berulang kali mengenal pasti pelbagai objek, warna, bentuk dan lain-lain dalam imej, malah kadangkala perlu membersihkan dan memproses data terlebih dahulu.

Dengan kemajuan berterusan teknologi kecerdasan buatan, batasan anotasi data manual menjadi semakin jelas. Anotasi data manual bukan sahaja memakan masa dan usaha, tetapi kadangkala sukar untuk memastikan kualiti

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Untuk menyelesaikan masalah ini, Google baru-baru ini mencadangkan kaedah yang dipanggil AI Feedback Reinforcement Learning (RLAIF), dengan menggunakan model besar untuk menggantikan manusia untuk anotasi keutamaan

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Hasil penyelidikan menunjukkan bahawa RLAIF boleh mencapai peningkatan yang setara dengan pembelajaran pengukuhan dengan maklum balas manusia (RLHF) tanpa bergantung pada anotasi manusia, dan kadar kemenangan kedua-duanya ialah 50%. Di samping itu, kajian juga mendapati bahawa kedua-dua RLAIF dan RLHF adalah lebih baik daripada strategi garis dasar penyeliaan penalaan halus (SFT)

Keputusan ini menunjukkan bahawa RLAIF tidak perlu bergantung pada anotasi manual dan merupakan alternatif yang boleh dilaksanakan kepada RLHF.

Jika teknologi ini benar-benar dipromosikan dan dipopularkan secara meluas pada masa hadapan, adakah banyak syarikat yang bergantung kepada "kotak tarik" manual untuk anotasi data akan menghadapi situasi terdesak?

01 Status semasa anotasi data

Jika kita ingin meringkaskan secara ringkas status semasa industri anotasi domestik, ia adalah: Beban kerja adalah besar, tetapi kecekapannya tidak begitu tinggi, dan ia adalah keadaan yang tidak bersyukur.

Syarikat yang ditanda dipanggil kilang data dalam bidang AI dan biasanya tertumpu di Asia Tenggara, Afrika, atau kawasan yang mempunyai sumber manusia yang kaya seperti Henan, Shanxi dan Shandong di China.

Untuk mengurangkan kos, bos syarikat pelabelan akan menyewa ruang di daerah untuk meletakkan peralatan komputer. Apabila ada tempahan, mereka akan ambil pekerja sambilan berdekatan untuk mengendalikannya Jika tiada tempahan, mereka akan bubar dan berehat

Secara mudahnya, kerja jenis ini agak serupa dengan pekerja hiasan sementara di tepi jalan.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Di stesen kerja, sistem secara rawak akan memberikan "annotator" satu set data, yang biasanya merangkumi beberapa soalan dan beberapa jawapan.

Selepas itu, "annotator" perlu menandai jenis soalan terlebih dahulu, dan kemudian menjaring dan mengisih jawapan.

Sebelum ini, apabila orang ramai bercakap tentang jurang antara model besar domestik dan model besar termaju seperti GPT-4, mereka merumuskan sebab kualiti data domestik yang rendah.

Mengapa kualiti data tidak tinggi? Sebahagian daripada sebabnya terletak pada "talian paip" anotasi data

Pada masa ini, terdapat dua jenis sumber data untuk model besar Cina, satu set data sumber terbuka yang lain ialah data Internet Cina yang dirangkak melalui perangkak.

Salah satu sebab utama prestasi model besar Cina tidak cukup baik ialah kualiti data Internet Sebagai contoh, profesional umumnya tidak menggunakan Baidu semasa mencari maklumat.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Oleh itu, apabila menghadapi beberapa masalah data yang lebih profesional dan menegak, seperti penjagaan perubatan, kewangan, dll., adalah perlu untuk bekerjasama dengan pasukan profesional.

Tetapi pada masa ini, masalah timbul lagi: untuk pasukan profesional, bukan sahaja tempoh bayaran balik untuk data adalah panjang, tetapi penggerak pertama mungkin mengalami kerugian.

Sebagai contoh, pasukan anotasi tertentu menghabiskan banyak wang dan masa untuk mencipta banyak data, tetapi yang lain mungkin hanya membungkusnya dan membelinya dengan jumlah wang yang kecil.

Berdepan dengan "dilema penunggang bebas" ini, banyak model domestik besar telah jatuh ke dalam situasi pelik di mana walaupun terdapat banyak data, kualitinya tidak tinggi

Dalam kes ini, bagaimanakah beberapa syarikat AI asing terkemuka, seperti OpenAI, menyelesaikan masalah ini?

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

OpenAI tidak berputus asa menggunakan tenaga buruh yang murah dan intensif untuk mengurangkan kos dalam anotasi data

Sebagai contoh, sebelum ini didedahkan bahawa ia telah mengupah sejumlah besar pekerja Kenya untuk melabelkan maklumat toksik pada harga AS$2/jam.

Namun, perbezaan penting ialah cara menyelesaikan masalah kualiti data dan kecekapan anotasi

Secara khusus, perbezaan terbesar antara OpenAI dan syarikat domestik dalam hal ini ialah cara mengurangkan kesan "subjektiviti" dan "ketidakstabilan" anotasi manual.

02 Pendekatan OpenAI Apabila menulis semula kandungan, bahasa perlu ditulis semula ke dalam bahasa Cina, dan ayat asal tidak perlu muncul

Untuk mengurangkan "subjektiviti" dan "ketidakstabilan" anotasi manusia sedemikian, OpenAI secara kasarnya menggunakan dua strategi utama:

1. Gabungan maklum balas tiruan dan pembelajaran pengukuhan

Apabila menulis semula, kandungan asal perlu ditukar kepada bahasa Cina. Inilah rupanya selepas menulis semula: Mula-mula, mari kita bercakap tentang pelabelan. Perbezaan terbesar antara maklum balas tiruan OpenAI dan maklum balas domestik ialah ia terutamanya menyusun atau menjaringkan kelakuan sistem pintar, dan bukannya mengubah suai atau melabelkan outputnya

Tingkah laku sistem pintar merujuk kepada satu siri tindakan atau keputusan yang diambil oleh sistem pintar dalam persekitaran yang kompleks berdasarkan matlamat dan strateginya sendiri

Seperti bermain permainan, mengawal robot, bercakap dengan orang, dll.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Keluaran sistem pintar merujuk kepada penjanaan hasil atau jawapan berdasarkan data input dalam tugas mudah, seperti menulis artikel atau melukis lukisan.

Secara umumnya, tingkah laku sistem pintar selalunya sukar untuk dinilai dari segi "betul" atau "salah", sebaliknya perlu dinilai dari segi keutamaan atau kepuasan

Sistem penilaian jenis ini berdasarkan "keutamaan" atau "kepuasan" tidak memerlukan pengubahsuaian atau anotasi kandungan tertentu, sekali gus mengurangkan kesan subjektiviti manusia, tahap pengetahuan dan faktor lain terhadap kualiti dan ketepatan anotasi data

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Memang benar bahawa perusahaan domestik juga akan menggunakan sistem yang serupa dengan "penyisihan" dan "pemarkahan" semasa melabelkan, bagaimanapun, disebabkan kekurangan "model ganjaran" seperti OpenAI sebagai fungsi ganjaran untuk mengoptimumkan strategi sistem pintar. "isihan" dan "Pemarkahan" itu pada asasnya masih merupakan kaedah mengubah suai atau menganotasi output.

2. Saluran sumber data yang pelbagai dan berskala besar

Sumber utama anotasi data di China ialah syarikat anotasi pihak ketiga atau pasukan syarikat teknologi yang dibina sendiri Pasukan ini kebanyakannya terdiri daripada mahasiswa dan tidak mempunyai profesionalisme dan pengalaman yang mencukupi untuk memberikan maklum balas yang berkualiti tinggi dan cekap.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Sebaliknya, maklum balas manusia OpenAI diperoleh melalui pelbagai saluran dan pasukan

OpenAI bekerjasama dengan berbilang syarikat dan institusi data, seperti Scale AI, Appen, Lionbridge AI, dsb., bukan sahaja menggunakan set data sumber terbuka dan perangkak Internet untuk mendapatkan data, tetapi juga komited untuk mendapatkan data yang lebih pelbagai dan berkualiti tinggi

Kaedah pelabelan syarikat dan institusi data ini lebih "automatik" dan "pintar" berbanding rakan sejawat domestik mereka

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Sebagai contoh, Skala AI menggunakan teknologi yang dipanggil Snorkel, iaitu kaedah pelabelan data berdasarkan pembelajaran yang diselia dengan lemah yang boleh menjana label berkualiti tinggi daripada pelbagai sumber data yang tidak tepat.

Pada masa yang sama, Snorkel juga boleh menggunakan pelbagai isyarat seperti peraturan, model dan pangkalan pengetahuan untuk menambah label pada data tanpa melabel secara manual setiap titik data secara langsung. Ini boleh mengurangkan kos dan masa anotasi manual.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Dengan kos anotasi data dikurangkan dan kitaran dipendekkan, syarikat data yang mempunyai kelebihan daya saing ini boleh memilih subbahagian bernilai tinggi, sukar dan ambang tinggi, seperti pemanduan autonomi, model bahasa besar, data sintetik, dll., untuk secara berterusan meningkatkan daya saing teras sendiri dan kelebihan yang berbeza

Dengan cara ini, dilema menunggang bebas "penggerak pertama akan menderita" juga telah dihapuskan oleh halangan teknikal dan industri yang kukuh.

Perbandingan antara standardisasi dan bengkel kecil

Ia dapat dilihat bahawa Teknologi pelabelan automatik AI benar-benar akan menghapuskan hanya syarikat pelabelan yang masih menggunakan pelabelan manual semata-mata.

Walaupun anotasi data kelihatan seperti industri "intensif buruh", setelah anda menyelidiki butirannya, anda akan mendapati bahawa mengejar data berkualiti tinggi bukanlah satu tugas yang mudah.

Diwakili oleh Scale AI, unicorn anotasi data luar negara, Scale AI bukan sahaja menggunakan sumber manusia murah dari Afrika dan tempat lain, tetapi juga merekrut berpuluh-puluh PhD untuk menangani data profesional dalam pelbagai industri.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Nilai terbesar yang diberikan oleh Scale AI kepada syarikat model besar seperti OpenAI ialah kualiti anotasi data

Untuk memastikan kualiti data ke tahap yang terbaik, selain penggunaan anotasi berbantukan AI yang dinyatakan di atas, Satu lagi inovasi utama Skala AI ialah platform data bersatu.

Platform ini termasuk Audit Skala, Analitis Skala, Kualiti ScaleData, dsb. Melalui platform ini, pelanggan boleh memantau dan menganalisis pelbagai penunjuk dalam proses anotasi, mengesahkan dan mengoptimumkan data anotasi serta menilai ketepatan, ketekalan dan kesempurnaan anotasi.

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Boleh dikatakan alat dan proses yang seragam dan bersatu telah menjadi faktor utama dalam membezakan "kilang pemasangan" dan "bengkel buatan tangan" dalam syarikat pelabelan.

Dalam hal ini, kebanyakan syarikat anotasi domestik masih menggunakan "semakan manual" untuk menyemak kualiti anotasi data Hanya beberapa syarikat gergasi seperti Baidu telah memperkenalkan alat pengurusan dan penilaian yang lebih maju, seperti platform perkhidmatan data pintar EasyData.

Jika tiada alat khusus untuk memantau dan menganalisis hasil dan penunjuk anotasi, maka dari segi semakan data utama, kawalan kualiti data hanya boleh bergantung pada pengalaman manual Kaedah ini masih boleh mencapai tahap seperti bengkel

Berapa banyak syarikat pelabelan AI yang akan membunuh langkah besar Google?

Oleh itu, semakin banyak syarikat China, seperti Baidu, My Neighbor Totoro Data, dll., mula menggunakan pembelajaran mesin dan teknologi kecerdasan buatan untuk meningkatkan kecekapan dan kualiti anotasi data serta merealisasikan model kerjasama manusia-mesin

Dari perspektif ini, kemunculan pelabelan kecerdasan buatan tidak bermakna berakhirnya syarikat pelabelan domestik, tetapi berakhirnya kaedah pelabelan intensif buruh tradisional yang tidak cekap, murah dan kekurangan kandungan teknikal

Atas ialah kandungan terperinci Berapa banyak syarikat pelabelan AI yang akan membunuh 'langkah besar' Google?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Mengulas DeepSeek Cara Mengulas DeepSeek Feb 19, 2025 pm 05:42 PM

DeepSeek adalah alat pengambilan maklumat yang kuat. .

Cara Mencari DeepSeek Cara Mencari DeepSeek Feb 19, 2025 pm 05:39 PM

DeepSeek adalah enjin carian proprietari yang hanya mencari dalam pangkalan data atau sistem tertentu, lebih cepat dan lebih tepat. Apabila menggunakannya, pengguna dinasihatkan untuk membaca dokumen itu, cuba strategi carian yang berbeza, dapatkan bantuan dan maklum balas mengenai pengalaman pengguna untuk memanfaatkan kelebihan mereka.

Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Feb 28, 2025 am 11:06 AM

Artikel ini memperkenalkan proses pendaftaran versi web Web Open Exchange (GATE.IO) dan aplikasi Perdagangan Gate secara terperinci. Sama ada pendaftaran web atau pendaftaran aplikasi, anda perlu melawat laman web rasmi atau App Store untuk memuat turun aplikasi tulen, kemudian isi nama pengguna, kata laluan, e -mel, nombor telefon bimbit dan maklumat lain, dan lengkap e -mel atau pengesahan telefon bimbit.

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Feb 21, 2025 pm 10:57 PM

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Bybit adalah pertukaran cryptocurrency yang menyediakan perkhidmatan perdagangan kepada pengguna. Aplikasi mudah alih Exchange tidak boleh dimuat turun terus melalui AppStore atau GooglePlay untuk sebab -sebab berikut: 1. Aplikasi pertukaran cryptocurrency sering tidak memenuhi keperluan ini kerana ia melibatkan perkhidmatan kewangan dan memerlukan peraturan dan standard keselamatan tertentu. 2. Undang -undang dan Peraturan Pematuhan di banyak negara, aktiviti yang berkaitan dengan urus niaga cryptocurrency dikawal atau terhad. Untuk mematuhi peraturan ini, aplikasi bybit hanya boleh digunakan melalui laman web rasmi atau saluran yang diberi kuasa lain

Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Feb 28, 2025 am 10:51 AM

Adalah penting untuk memilih saluran rasmi untuk memuat turun aplikasi dan memastikan keselamatan akaun anda.

Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Artikel ini mencadangkan sepuluh platform perdagangan cryptocurrency teratas yang memberi perhatian kepada, termasuk Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI dan Xbit yang desentralisasi. Platform ini mempunyai kelebihan mereka sendiri dari segi kuantiti mata wang transaksi, jenis urus niaga, keselamatan, pematuhan, dan ciri khas. Memilih platform yang sesuai memerlukan pertimbangan yang komprehensif berdasarkan pengalaman perdagangan anda sendiri, toleransi risiko dan keutamaan pelaburan. Semoga artikel ini membantu anda mencari saman terbaik untuk diri sendiri

WEB OPEN DOOR EXCHANGE WEB PAGE LOGIN VERSI VERSI UNTUK GATEIO Laman Web Rasmi Pintu Masuk WEB OPEN DOOR EXCHANGE WEB PAGE LOGIN VERSI VERSI UNTUK GATEIO Laman Web Rasmi Pintu Masuk Mar 04, 2025 pm 11:48 PM

Pengenalan terperinci kepada operasi log masuk versi Web Open Exchange, termasuk langkah masuk dan proses pemulihan kata laluan.

Portal Log Masuk Versi Rasmi Binance Binance Portal Log Masuk Versi Rasmi Binance Binance Feb 21, 2025 pm 05:42 PM

Untuk mengakses versi Login Laman Web Binance yang terkini, ikuti langkah mudah ini. Pergi ke laman web rasmi dan klik butang "Login" di sudut kanan atas. Pilih kaedah log masuk anda yang sedia ada. Masukkan nombor mudah alih berdaftar atau e -mel dan kata laluan anda dan pengesahan lengkap (seperti kod pengesahan mudah alih atau Google Authenticator). Selepas pengesahan yang berjaya, anda boleh mengakses Portal Log masuk laman web rasmi Binance.

See all articles