Rumah Peranti teknologi AI Adakah penanda aras untuk pemarkahan model besar boleh dipercayai? Anthropic datang untuk penilaian besar seterusnya

Adakah penanda aras untuk pemarkahan model besar boleh dipercayai? Anthropic datang untuk penilaian besar seterusnya

Nov 06, 2023 pm 12:13 PM
industri anthropic

Dengan kelaziman model besar (LLM), menilai sistem AI telah menjadi bahagian penting Apakah kesukaran yang akan dihadapi semasa proses penilaian.

Pada peringkat ini, kebanyakan perbincangan mengenai kesan kecerdasan buatan (AI) terhadap masyarakat boleh dikaitkan dengan sifat tertentu sistem AI, seperti ketulenan, keadilan, potensi penyalahgunaan, dsb. Tetapi masalahnya sekarang ialah ramai penyelidik tidak menyedari sepenuhnya betapa sukarnya untuk membina penilaian model yang mantap dan boleh dipercayai. Banyak kit penilaian sedia ada hari ini terhad dalam prestasi dalam pelbagai aspek.

Pemula AI Anthropic baru-baru ini menyiarkan artikel "Cabaran dalam Menilai Sistem AI" di laman web rasminya. Artikel itu menulis bahawa mereka menghabiskan masa yang lama membina penilaian sistem AI untuk lebih memahami sistem AI.

Adakah penanda aras untuk pemarkahan model besar boleh dipercayai? Anthropic datang untuk penilaian besar seterusnya

Alamat artikel: https://www.anthropic.com/index/evaluating-ai-systems

Artikel ini terutamanya membincangkan aspek-aspek berikut:

  • Penilaian pelbagai pilihan

    🜎 rangka kerja penilaian pihak seperti BIG-bench dan HELM; AI untuk membangunkan kaedah penilaian;
  • Bekerjasama dengan organisasi bukan untung untuk menyemak model untuk bahaya.
  • Cabaran Penilaian Pelbagai Pilihan
  • Penilaian Pelbagai Pilihan mungkin kelihatan mudah, tetapi tidak. Artikel ini membincangkan cabaran model pada penanda aras MMLU (Measuring Multitask Language Understanding) dan BBQ (Bias Benchmark for QA).
  • Set data MMLU

  • MMLU ialah set data penilaian bahasa Inggeris yang mengandungi 57 tugasan soalan dan jawapan aneka pilihan, meliputi matematik, sejarah, undang-undang, dll., dan kini merupakan set data penilaian LLM arus perdana. Lebih tinggi ketepatan, lebih kuat keupayaan model. Walau bagaimanapun, artikel ini mendapati terdapat empat cabaran dalam menggunakan MMLU:

    1 Memandangkan MMLU digunakan secara meluas, keadaan ini tidak dapat dielakkan, dan lebih mudah bagi model untuk memasukkan data MMLU semasa proses latihan. Ia sama seperti apabila pelajar melihat soalan sebelum mengambil ujian - ia menipu.
2 Sensitif kepada perubahan pemformatan yang mudah, seperti menukar pilihan daripada (A) kepada (1), atau menambah ruang tambahan antara pilihan dan jawapan ini boleh menyebabkan ketepatan penilaian berubah-ubah sebanyak kira-kira 5%.

3 Sesetengah pembangun telah menyasarkan cara untuk meningkatkan skor MMLU, seperti pembelajaran beberapa pukulan atau penaakulan rantaian pemikiran. Oleh itu, berhati-hati mesti diambil apabila membandingkan markah MMLU di seluruh makmal.

4.MMLU mungkin tidak disemak pruf dengan teliti - sesetengah penyelidik menemui contoh ralat label atau soalan yang tidak boleh dijawab dalam MMLU.

Disebabkan masalah di atas, adalah perlu untuk membuat pertimbangan dan pemikiran terlebih dahulu semasa menjalankan penilaian yang mudah dan piawai ini. Artikel ini menunjukkan bahawa cabaran yang dihadapi dalam menggunakan MMLU biasanya digunakan untuk penilaian aneka pilihan yang serupa.

BBQ

Penilaian aneka pilihan juga boleh mengukur beberapa bahaya AI. Khususnya, untuk mengukur bahaya ini dalam model mereka sendiri, Claude, penyelidik di Anthropic menggunakan penanda aras BBQ, penanda aras biasa yang digunakan untuk menilai berat sebelah model terhadap populasi. Selepas membandingkan penanda aras ini dengan beberapa penilaian yang serupa, artikel ini yakin bahawa BBQ menyediakan ukuran berat sebelah sosial yang baik. Kerja itu mengambil masa beberapa bulan.

Artikel ini menunjukkan bahawa melaksanakan BBQ adalah lebih sukar daripada yang dijangkakan. Yang pertama ialah pelaksanaan sumber terbuka BBQ yang berfungsi tidak dapat ditemui, dan jurutera terbaik Anthropic mengambil masa seminggu untuk melaksanakan dan menguji penilaian. Tidak seperti dalam MMLU, yang dinilai dari segi ketepatan, skor berat sebelah dalam BBQ memerlukan nuansa dan pengalaman untuk mentakrif, mengira dan mentafsir.

Skor bias BBQ berjulat dari - 1 hingga 1, dengan 1 menunjukkan berat sebelah stereotaip yang ketara, 0 menunjukkan tidak berat sebelah dan -1 menunjukkan berat sebelah kontra-stereotaip yang ketara. Selepas melaksanakan BBQ, kertas ini mendapati beberapa model mempunyai skor bias 0. Keputusan ini juga menjadikan penyelidik optimis, menunjukkan bahawa mereka telah mencapai kemajuan dalam mengurangkan output model berat sebelah.

Rangka Kerja Penilaian Pihak Ketiga

Baru-baru ini, pihak ketiga telah secara aktif membangunkan suite penilaian. Setakat ini, Anthropic telah mengambil bahagian dalam dua daripada projek ini: BIG-bench dan HELM (Penilaian Holistik Model Bahasa) Universiti Stanford. Walaupun penilaian pihak ketiga kelihatan berguna, kedua-dua projek menghadapi cabaran baharu.

BIG-bench

BIG-bench terdiri daripada 204 penilaian, dilengkapkan secara kolaboratif oleh lebih 450 penyelidik, meliputi pelbagai topik daripada sains kepada penaakulan sosial. Anthropic berkata mereka menghadapi beberapa cabaran apabila menggunakan penanda aras ini: Untuk memasang BIG-bench, mereka menghabiskan banyak masa. BIG-bench bukanlah plug-and-play seperti MMLU - ia lebih banyak usaha untuk dilaksanakan daripada menggunakan BBQ.

BIG-bench tidak dapat membuat skala dengan berkesan, dan sangat mencabar untuk menyelesaikan kesemua 204 penilaian. Oleh itu, ia perlu ditulis semula untuk berfungsi dengan baik dengan infrastruktur yang digunakan, yang merupakan beban kerja yang besar.

Selain itu, semasa proses pelaksanaan, artikel ini mendapati terdapat beberapa pepijat dalam penilaian, yang sangat menyusahkan untuk digunakan, jadi penyelidik Anthropic meninggalkannya selepas eksperimen ini.

HELM: menyusun set penilaian dari atas ke bawah

BIG-bench ialah usaha "bottom-up" di mana sesiapa sahaja boleh menyerahkan sebarang tugas, yang kemudiannya tertakluk kepada semakan terhad oleh sekumpulan penganjur pakar . HELM menggunakan pendekatan "atas ke bawah", dengan pakar memutuskan tugasan yang hendak digunakan untuk menilai model.

Secara khusus, HELM menilai model dalam berbilang senario seperti senario inferens dan senario yang mengandungi maklumat palsu, menggunakan penunjuk standard seperti ketepatan, keteguhan dan kesaksamaan. Anthropic menyediakan pembangun HELM dengan akses API untuk menjalankan penanda aras pada model mereka.

Berbanding dengan BIG-bench, HELM mempunyai dua kelebihan: 1) ia tidak memerlukan kerja kejuruteraan yang meluas, 2) pakar boleh dipercayai untuk memilih dan mentafsir penilaian berkualiti tinggi yang khusus.

Namun, HELM juga membawa beberapa cabaran. Kaedah yang berfungsi untuk menilai model lain mungkin tidak semestinya berfungsi untuk model Anthropic, dan sebaliknya. Sebagai contoh, keluarga model Claude Anthropic dilatih untuk mengikuti format teks tertentu yang dipanggil format Manusia/Pembantu. Anthropic mengikuti format khusus ini secara dalaman apabila menilai modelnya. Jika format ini tidak diikuti, Claude kadangkala akan memberikan jawapan yang luar biasa, menjadikan keputusan metrik penilaian standard kurang boleh dipercayai.

Selain itu, HELM mengambil masa yang lama untuk disiapkan, dan menilai model baharu boleh mengambil masa berbulan-bulan dan memerlukan penyelarasan dan komunikasi dengan pihak luar.

Sistem kecerdasan buatan direka untuk interaksi terbuka dan dinamik dengan orang ramai, jadi bagaimana untuk menilai model lebih dekat dengan aplikasi kehidupan sebenar?

Orang ramai untuk ujian A/B

Pada masa ini, bidang ini bergantung terutamanya (tetapi bukan secara eksklusif) pada satu jenis asas penilaian manusia - Ujian A/B pada platform sumber ramai, di mana orang berinteraksi dengan dua Berdialog terbuka dengan model dan pilih sama ada respons lebih membantu atau tidak berbahaya daripada model A atau B, menyusun model mengikut kegunaan atau tidak berbahayanya. Kelebihan kaedah penilaian ini ialah ia sepadan dengan persekitaran dunia sebenar dan membolehkan model yang berbeza disusun kedudukannya.

Walau bagaimanapun, kaedah penilaian ini mempunyai beberapa had dan eksperimen adalah mahal dan memakan masa untuk dijalankan.

Pertama, pendekatan ini memerlukan kerjasama dan pembayaran untuk platform penyumberan ramai pihak ketiga, membina antara muka web tersuai untuk model, mereka bentuk arahan terperinci untuk penguji A/B, menganalisis dan menyimpan data yang terhasil dan menyelesaikan masalah pengambilan pekerja Cabaran etika ditimbulkan oleh pekerja penyumberan ramai.

Dalam kes ujian yang tidak berbahaya, eksperimen juga membawa risiko mendedahkan orang kepada output yang berbahaya. Keputusan penilaian manusia juga boleh berbeza-beza dengan ketara bergantung pada ciri-ciri penilai manusia, termasuk tahap kreativiti, motivasi dan keupayaan penilai manusia untuk mengenal pasti kelemahan yang berpotensi dalam sistem yang diuji.

Selain itu, terdapat ketegangan yang wujud antara berguna dan tidak berbahaya. Sistem boleh dikurangkan bahaya dengan memberikan respons yang tidak membantu seperti "Maaf, saya tidak dapat membantu anda."

Apakah keseimbangan yang betul antara berguna dan tidak berbahaya? Apakah nilai penunjuk yang menunjukkan bahawa model itu cukup berguna dan tidak berbahaya? Banyak soalan memerlukan penyelidik di lapangan melakukan lebih banyak kerja untuk mencari jawapan.

Untuk maklumat lanjut, sila rujuk artikel asal.

Pautan asal: https://www.anthropic.com/index/evaluating-ai-systems

Atas ialah kandungan terperinci Adakah penanda aras untuk pemarkahan model besar boleh dipercayai? Anthropic datang untuk penilaian besar seterusnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

See all articles