750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima-AI-php.cn

Jadual Kandungan

Hampir 90 model bersaing dalam 750,000 pusingan

Ujian model besar yang semua orang boleh sertai

Pautan rujukan:

Rumah

Peranti teknologi

750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2024 pm 03:28 PM

bootstrap Versi gpt-4 susunan llama 3

Mengenai Llama 3, terdapat keputusan ujian baharu -

Komuniti penilaian model besar LMSYS mengeluarkan senarai ranking model yang besar, Llama 3 menduduki tempat kelima, dan terikat di tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Gambar

Berbeza daripada Penanda Aras yang lain, senarai ini berdasarkan model pertempuran satu lawan satu, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri.

Akhirnya, Llama 3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude 3 Super Cup Opus yang berbeza.

Dalam senarai tunggal Inggeris, Llama 3 memintas Claude dan terikat dengan GPT-4.

LeCun, ketua saintis Meta, sangat gembira dengan keputusan ini dan tweet semula tweet itu dan meninggalkan "Nice".

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Gambar

Soumith Chintala, bapa kepada PyTorch, juga teruja menyatakan bahawa keputusan sedemikian adalah luar biasa dan dia berbangga dengan Meta.

Versi 400B Llama 3 masih belum keluar, dan ia memenangi tempat kelima hanya dengan bergantung pada parameter 70B...
Saya masih ingat apabila GPT-4 dikeluarkan pada Mac tahun lepas, hampir mustahil untuk mencapai prestasi yang sama.
…
Pempopularan AI sekarang benar-benar luar biasa, dan saya sangat berbangga dengan rakan sekerja saya di Meta AI kerana mencapai kejayaan sedemikian.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Gambar

Jadi, apakah hasil khusus yang ditunjukkan oleh senarai ini?

Hampir 90 model bersaing dalam 750,000 pusingan

Sehingga senarai terbaharu dikeluarkan, LMSYS telah mengumpul hampir 750,000 keputusan pertempuran solo model besar, melibatkan 89 model.

Antaranya, Llama 3 telah mengambil bahagian sebanyak 12,700 kali, dan GPT-4 mempunyai beberapa versi berbeza, dengan penyertaan paling ramai 68,000 kali.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Gambar

Gambar di bawah menunjukkan bilangan pertandingan dan kadar kemenangan beberapa model popular kedua-dua penunjuk dalam gambar tidak mengira bilangan cabutan.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

Dari segi senarai, LMSYS dibahagikan kepada senarai umum dan berbilang sub-senarai berada di kedudukan pertama, terikat dengan versi 1106 yang terdahulu, dan Claude 3 Super Large Cup Opus.

Versi lain (0125) GPT-4 menduduki tempat kedua, diikuti rapat oleh Llama 3.

Tetapi apa yang lebih menarik ialah versi 0125 yang lebih baharu tidak berfungsi sebaik versi 1106 yang lebih lama.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

Dalam senarai tunggal Inggeris, keputusan Llama 3 terikat secara langsung dengan dua GPT-4, malah melepasi versi 0125.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

Tempat pertama dalam ranking penguasaan bahasa Cina dikongsi oleh Claude 3 Opus dan GPT-4-1106, manakala Llama 3 telah berada di luar tempat ke-20.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Pictures

Selain kebolehan bahasa, senarai ini juga menetapkan kedudukan untuk teks panjang dan kebolehan pengekodan, dan Llama 3 juga antara yang terbaik.

Namun, apakah "peraturan permainan" khusus LMSYS?

Ujian model besar yang semua orang boleh sertai

Ini adalah ujian model besar yang semua orang boleh sertai. Soalan dan kriteria penilaian ditentukan oleh peserta sendiri.

Proses "pertandingan" khusus dibahagikan kepada dua mod: pertempuran dan sebelah menyebelah.

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Gambar

Dalam mod pertempuran, selepas memasukkan soalan pada antara muka ujian, sistem akan secara rawak memanggil dua model dalam perpustakaan, dan penguji tidak tahu siapa yang dipilih oleh sistem, dan hanya "Model" sahaja dipaparkan dalam antara muka A" dan "Model B".

Selepas model mengeluarkan jawapan, penilai perlu memilih mana yang lebih baik atau seri Sudah tentu, jika prestasi model tidak memenuhi jangkaan, terdapat pilihan yang sepadan.

Hanya selepas pemilihan dibuat, identiti model didedahkan.

Bersebelahan ialah tempat pengguna memilih model yang ditentukan kepada PK Selebihnya proses ujian adalah sama dengan mod pertempuran

Walau bagaimanapun, hanya keputusan undian dalam mod tanpa nama pertempuran akan dikira. dan model mungkin tidak berhati-hati semasa perbualan mendedahkan identiti anda akan membatalkan keputusan. . Data kadar ditukar kepada markah melalui sistem penilaian Elo.

Sistem penilaian Elo ialah kaedah mengira tahap kemahiran relatif pemain, yang direka oleh profesor fizik Amerika Arpad Elo. 大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Khusus untuk LMSYS, dalam keadaan awal, rating (R) semua model ditetapkan kepada 1000, dan kemudian jangkaan kadar kemenangan (E) dikira berdasarkan formula sedemikian.

Gambar

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Semasa ujian diteruskan, markah akan disemak mengikut markah sebenar (S mempunyai tiga nilai1, 0 dan 0.5, sepadan dengan tiga situasi menang, kalah). dan lukisan masing-masing.

Algoritma pembetulan ditunjukkan dalam formula berikut, di mana K ialah pekali, yang perlu dilaraskan oleh penguji mengikut situasi sebenar.

Gambar

Akhir sekali, selepas semua data yang sah dimasukkan ke dalam pengiraan, skor Elo model diperolehi.

Namun, semasa operasi sebenar, pasukan LMSYS mendapati bahawa kestabilan algoritma ini tidak mencukupi, jadi mereka menggunakan kaedah statistik untuk membetulkannya. 大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Mereka menggunakan kaedah Bootstrap untuk pensampelan berulang, memperoleh hasil yang lebih stabil dan menganggarkan selang keyakinan.

Skor Elo yang disemak terakhir telah menjadi asas untuk kedudukan dalam senarai.

One More Thing

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五 Llama 3 sudah boleh dijalankan pada platform inferens model besar Groq (bukan Musk’s Grok).

Sorotan terbesar platform ini ialah "kelajuannya". Sebelum ini, model Mixtral digunakan untuk mencapai kelajuan hampir 500 token sesaat.

Llama 3 juga sangat pantas apabila berjalan Ia sebenarnya diukur bahawa versi 70B boleh menjalankan kira-kira 300 token sesaat, dan versi 8B adalah hampir 800.

Gambar

Pautan rujukan:

[1]https://lmsys.org/blog/2023-05-03-arena/

[2]https://chat.lmsys.org/?leaderboard [3]https://twitter.com/lmsysorg/status/1782483699449332144

Atas ialah kandungan terperinci 750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7486

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara melakukan pusat menegak bootstrap Apr 07, 2025 pm 03:21 PM

Gunakan Bootstrap untuk melaksanakan pusat menegak: Kaedah Flexbox: Gunakan kelas D-Flex, Justify-Content, dan Align-Item-Center untuk meletakkan unsur-unsur dalam bekas Flexbox. Kaedah Kelas Align-Items-Center: Bagi pelayar yang tidak menyokong Flexbox, gunakan kelas Align-Items-Center, dengan syarat unsur induk mempunyai ketinggian yang ditetapkan.

Cara mendapatkan bar carian bootstrap Apr 07, 2025 pm 03:33 PM

Cara menggunakan Bootstrap untuk mendapatkan nilai bar carian: Menentukan ID atau nama bar carian. Gunakan JavaScript untuk mendapatkan elemen DOM. Mendapat nilai elemen. Lakukan tindakan yang diperlukan.

Cara menggunakan butang bootstrap Apr 07, 2025 pm 03:09 PM

Bagaimana cara menggunakan butang bootstrap? Perkenalkan CSS bootstrap untuk membuat elemen butang dan tambahkan kelas butang bootstrap untuk menambah teks butang

Cara mengubah saiz bootstrap Apr 07, 2025 pm 03:18 PM

Untuk menyesuaikan saiz unsur-unsur dalam bootstrap, anda boleh menggunakan kelas dimensi, yang termasuk: menyesuaikan lebar: .col-, .w-, .mw-adjust ketinggian: .h-, .min-h-, .max-h-

Cara memasukkan gambar di bootstrap Apr 07, 2025 pm 03:30 PM

Terdapat beberapa cara untuk memasukkan imej dalam bootstrap: masukkan imej secara langsung, menggunakan tag HTML IMG. Dengan komponen imej bootstrap, anda boleh memberikan imej yang responsif dan lebih banyak gaya. Tetapkan saiz imej, gunakan kelas IMG-cecair untuk membuat imej boleh disesuaikan. Tetapkan sempadan, menggunakan kelas IMG-Sempadan. Tetapkan sudut bulat dan gunakan kelas IMG-bulat. Tetapkan bayangan, gunakan kelas bayangan. Saiz semula dan letakkan imej, menggunakan gaya CSS. Menggunakan imej latar belakang, gunakan harta CSS imej latar belakang.

Cara Menulis Garis Pecah Di Bootstrap Apr 07, 2025 pm 03:12 PM

Terdapat dua cara untuk membuat garis perpecahan bootstrap: menggunakan tag, yang mewujudkan garis perpecahan mendatar. Gunakan harta sempadan CSS untuk membuat garis perpecahan gaya tersuai.

Cara melihat tarikh bootstrap Apr 07, 2025 pm 03:03 PM

Jawapan: Anda boleh menggunakan komponen pemetik tarikh bootstrap untuk melihat tarikh di halaman. Langkah -langkah: Memperkenalkan rangka kerja bootstrap. Buat kotak input pemilih Tarikh dalam HTML. Bootstrap secara automatik akan menambah gaya kepada pemilih. Gunakan JavaScript untuk mendapatkan tarikh yang dipilih.

Cara Menyiapkan Kerangka untuk Bootstrap Apr 07, 2025 pm 03:27 PM

Untuk menubuhkan rangka kerja bootstrap, anda perlu mengikuti langkah -langkah ini: 1. Rujuk fail bootstrap melalui CDN; 2. Muat turun dan tuan rumah fail pada pelayan anda sendiri; 3. Sertakan fail bootstrap di HTML; 4. Menyusun sass/kurang seperti yang diperlukan; 5. Import fail tersuai (pilihan). Setelah persediaan selesai, anda boleh menggunakan sistem grid Bootstrap, komponen, dan gaya untuk membuat laman web dan aplikasi yang responsif.

See all articles