Rumah > Peranti teknologi > AI > teks badan

Penanda aras ujian baharu dikeluarkan, sumber terbuka paling berkuasa Llama 3 memalukan

PHPz
Lepaskan: 2024-04-23 12:13:10
ke hadapan
469 orang telah melayarinya

Jika soalan ujian terlalu mudah, kedua-dua pelajar terbaik dan pelajar lemah boleh mendapat 90 mata, dan jurang tidak boleh dilebarkan...

Dengan keluaran model yang lebih kukuh seperti Claude 3, Llama 3 dan juga GPT-5 , industri memerlukan segera model yang lebih sukar, ujian penanda aras yang lebih berbeza.

LMSYS, organisasi di sebalik arena model besar, melancarkan penanda aras generasi akan datang Arena-Hard, yang menarik perhatian meluas.

Rujukan terkini juga tersedia untuk kekuatan dua versi arahan Llama 3 yang diperhalusi.

新测试基准发布,最强开源Llama 3尴尬了

Berbanding dengan Bangku MT sebelumnya, yang mempunyai markah yang sama, diskriminasi Arena-Hard meningkat daripada 22.6% kepada 87.4%, yang jelas sekali imbas.

Arena-Hard dibina menggunakan data manusia masa nyata dari arena, dan kadar konsistensi dengan keutamaan manusia adalah setinggi 89.1%.

Sebagai tambahan kepada dua penunjuk di atas yang mencapai SOTA, terdapat faedah tambahan:

Data ujian masa nyata yang dikemas kini mengandungi kata-kata pantas yang baru difikirkan oleh manusia dan tidak pernah dilihat oleh AI semasa fasa latihan, mengurangkan potensi data Beri laluan .

Selepas mengeluarkan model baharu, tidak perlu lagi menunggu seminggu atau lebih untuk pengguna manusia mengundi, cuma belanjakan $25 untuk menjalankan saluran ujian dengan cepat dan dapatkan hasilnya.

Sesetengah netizen mengulas bahawa adalah sangat penting untuk menggunakan kata gesaan pengguna sebenar berbanding peperiksaan sekolah menengah untuk ujian.

新测试基准发布,最强开源Llama 3尴尬了

Bagaimana penanda aras baharu berfungsi?

Ringkasnya, 500 perkataan gesaan berkualiti tinggi dipilih sebagai set ujian daripada 200,000 pertanyaan pengguna dalam arena model besar.

Pertama, pastikan kepelbagaian semasa proses pemilihan, iaitu set ujian harus meliputi pelbagai topik dunia sebenar.

Untuk memastikan ini, pasukan menggunakan saluran paip pemodelan topik dalam BERTopic, mula-mula menukar setiap petua menggunakan model pembenaman OpenAI (teks-benam-3-kecil), mengurangkan dimensi menggunakan UMAP dan pengelompokan menggunakan algoritma model berasaskan hierarki ( HDBSCAN) untuk mengenal pasti kelompok, dan akhirnya menggunakan GPT-4-turbo untuk pengagregatan.

新测试基准发布,最强开源Llama 3尴尬了

Juga pastikan bahawa kata gesaan yang dipilih adalah berkualiti tinggi, yang diukur dengan tujuh petunjuk utama:

  • Kekhususan: Adakah perkataan gesaan memerlukan output khusus?
  • Pengetahuan domain: Adakah perkataan gesaan meliputi satu atau lebih medan tertentu?
  • Kerumitan: Adakah perkataan gesaan mempunyai pelbagai lapisan penaakulan, komponen atau pembolehubah?
  • Penyelesaian masalah: Adakah perkataan segera membenarkan AI menunjukkan keupayaannya untuk menyelesaikan masalah secara proaktif?
  • Kreativiti: Adakah kata gesaan melibatkan beberapa tahap kreativiti dalam penyelesaian masalah?
  • Ketepatan Teknikal: Adakah perkataan segera memerlukan ketepatan teknikal bagi respons?
  • Aplikasi Praktikal: Adakah kata-kata segera berkaitan dengan aplikasi praktikal?

新测试基准发布,最强开源Llama 3尴尬了

Gunakan GPT-3.5-Turbo dan GPT-4-Turbo untuk menganotasi setiap petua dari 0 hingga 7 untuk menentukan bilangan syarat yang dipenuhi. Setiap kelompok kemudiannya dijaringkan berdasarkan skor purata isyarat.

Soalan berkualiti tinggi biasanya berkaitan dengan topik atau tugasan yang mencabar, seperti pembangunan permainan atau bukti matematik.

新测试基准发布,最强开源Llama 3尴尬了

Adakah penanda aras baharu itu tepat?

Arena-Hard pada masa ini mempunyai kelemahan: menggunakan GPT-4 sebagai pengadil lebih suka outputnya sendiri. Pegawai juga memberikan petua yang sepadan.

Dapat dilihat bahawa markah dua versi terkini GPT-4 jauh lebih tinggi daripada Claude 3 Opus, tetapi perbezaan dalam markah pengundian manusia tidaklah begitu ketara.

新测试基准发布,最强开源Llama 3尴尬了

Malah, mengenai perkara ini, penyelidikan baru-baru ini telah menunjukkan bahawa model canggih akan memilih keluaran mereka sendiri.

新测试基准发布,最强开源Llama 3尴尬了

Pasukan penyelidik juga mendapati bahawa AI secara semulajadi boleh menentukan sama ada sekeping teks ditulis dengan sendirinya Selepas penalaan halus, keupayaan pengecaman diri boleh dipertingkatkan dan keupayaan pengecaman diri adalah berkaitan secara linear dengan diri. pilihan.

新测试基准发布,最强开源Llama 3尴尬了

Jadi bagaimanakah penggunaan Claude 3 untuk pemarkahan akan mengubah keputusan? LMSYS juga telah melakukan eksperimen yang berkaitan.

Pertama sekali, markah siri Claude memang akan meningkat.

新测试基准发布,最强开源Llama 3尴尬了

Tetapi yang menghairankan, ia lebih suka beberapa model terbuka seperti Mixtral dan Zero One Thousand Yi, malah mendapat markah yang lebih tinggi dengan ketara pada GPT-3.5.

Secara keseluruhannya, diskriminasi dan konsistensi dengan keputusan manusia yang dijaringkan menggunakan Claude 3 tidak sebaik GPT-4.

新测试基准发布,最强开源Llama 3尴尬了

Begitu ramai netizen mencadangkan menggunakan berbilang model besar untuk pemarkahan menyeluruh.

新测试基准发布,最强开源Llama 3尴尬了

Selain itu, pasukan itu juga menjalankan lebih banyak eksperimen ablasi untuk mengesahkan keberkesanan ujian penanda aras baharu.

Sebagai contoh, jika anda menambah "jadikan jawapan sedetail mungkin" dalam perkataan gesaan, purata panjang output akan lebih tinggi dan skor sememangnya akan bertambah baik.

Tetapi menukar perkataan gesaan kepada "suka bersembang", purata panjang output juga meningkat, tetapi peningkatan skor tidak jelas.

新测试基准发布,最强开源Llama 3尴尬了

Selain itu, terdapat banyak penemuan menarik semasa percubaan.

Sebagai contoh, GPT-4 sangat ketat dalam pemarkahan Jika terdapat kesilapan dalam jawapan, mata akan ditolak dengan teruk; manakala Claude 3 akan berlembut walaupun ia mengiktiraf kesilapan kecil.

Untuk soalan kod, Claude 3 cenderung untuk memberikan jawapan dengan struktur yang ringkas, tidak bergantung pada perpustakaan kod luaran, dan boleh membantu manusia mempelajari pengaturcaraan manakala GPT-4-Turbo memilih jawapan yang paling praktikal, tanpa mengira pendidikan mereka; nilai.

Selain itu, walaupun suhu ditetapkan kepada 0, GPT-4-Turbo mungkin menghasilkan pertimbangan yang sedikit berbeza.

Ia juga boleh dilihat daripada 64 kelompok pertama visualisasi hierarki bahawa kualiti dan kepelbagaian soalan yang ditanya oleh pengguna arena model besar sememangnya tinggi.

新测试基准发布,最强开源Llama 3尴尬了

Mungkin ada sumbangan anda dalam hal ini.

Arena-Hard GitHub: https://github.com/lm-sys/arena-hard
Arena-Hard HuggingFace: https://huggingface.co/spaces/lmsys/arena-hard-browser
Arena Model Besar : https://arena.lmsys.org

Pautan rujukan:

[1]https://x.com/lmsysorg/status/1782179997622649330
[2]https://lmsys.org/blog/2024-04 - 19-arena-keras/

Atas ialah kandungan terperinci Penanda aras ujian baharu dikeluarkan, sumber terbuka paling berkuasa Llama 3 memalukan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!