


750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima
Mengenai Llama 3, terdapat keputusan ujian baharu -
Komuniti penilaian model besar LMSYS mengeluarkan senarai ranking model yang besar, Llama 3 menduduki tempat kelima, dan terikat di tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris.
Gambar
Berbeza daripada Penanda Aras yang lain, senarai ini berdasarkan model pertempuran satu lawan satu, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri.
Akhirnya, Llama 3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude 3 Super Cup Opus yang berbeza.
Dalam senarai tunggal Inggeris, Llama 3 memintas Claude dan terikat dengan GPT-4.
LeCun, ketua saintis Meta, sangat gembira dengan keputusan ini dan tweet semula tweet itu dan meninggalkan "Nice".
Gambar
Soumith Chintala, bapa kepada PyTorch, juga teruja menyatakan bahawa keputusan sedemikian adalah luar biasa dan dia berbangga dengan Meta.
Versi 400B Llama 3 masih belum keluar, dan ia memenangi tempat kelima hanya dengan bergantung pada parameter 70B...
Saya masih ingat apabila GPT-4 dikeluarkan pada Mac tahun lepas, hampir mustahil untuk mencapai prestasi yang sama.
…
Pempopularan AI sekarang benar-benar luar biasa, dan saya sangat berbangga dengan rakan sekerja saya di Meta AI kerana mencapai kejayaan sedemikian.
Gambar
Jadi, apakah hasil khusus yang ditunjukkan oleh senarai ini?
Hampir 90 model bersaing dalam 750,000 pusingan
Sehingga senarai terbaharu dikeluarkan, LMSYS telah mengumpul hampir 750,000 keputusan pertempuran solo model besar, melibatkan 89 model.
Antaranya, Llama 3 telah mengambil bahagian sebanyak 12,700 kali, dan GPT-4 mempunyai beberapa versi berbeza, dengan penyertaan paling ramai 68,000 kali.
Gambar
Gambar di bawah menunjukkan bilangan pertandingan dan kadar kemenangan beberapa model popular kedua-dua penunjuk dalam gambar tidak mengira bilangan cabutan.
Pictures
Dari segi senarai, LMSYS dibahagikan kepada senarai umum dan berbilang sub-senarai berada di kedudukan pertama, terikat dengan versi 1106 yang terdahulu, dan Claude 3 Super Large Cup Opus.
Versi lain (0125) GPT-4 menduduki tempat kedua, diikuti rapat oleh Llama 3.
Tetapi apa yang lebih menarik ialah versi 0125 yang lebih baharu tidak berfungsi sebaik versi 1106 yang lebih lama.
Pictures
Dalam senarai tunggal Inggeris, keputusan Llama 3 terikat secara langsung dengan dua GPT-4, malah melepasi versi 0125.
Pictures
Tempat pertama dalam ranking penguasaan bahasa Cina dikongsi oleh Claude 3 Opus dan GPT-4-1106, manakala Llama 3 telah berada di luar tempat ke-20.
Pictures
Selain kebolehan bahasa, senarai ini juga menetapkan kedudukan untuk teks panjang dan kebolehan pengekodan, dan Llama 3 juga antara yang terbaik.
Namun, apakah "peraturan permainan" khusus LMSYS?
Ujian model besar yang semua orang boleh sertai
Ini adalah ujian model besar yang semua orang boleh sertai. Soalan dan kriteria penilaian ditentukan oleh peserta sendiri.
Proses "pertandingan" khusus dibahagikan kepada dua mod: pertempuran dan sebelah menyebelah.
Gambar
Dalam mod pertempuran, selepas memasukkan soalan pada antara muka ujian, sistem akan secara rawak memanggil dua model dalam perpustakaan, dan penguji tidak tahu siapa yang dipilih oleh sistem, dan hanya "Model" sahaja dipaparkan dalam antara muka A" dan "Model B".
Selepas model mengeluarkan jawapan, penilai perlu memilih mana yang lebih baik atau seri Sudah tentu, jika prestasi model tidak memenuhi jangkaan, terdapat pilihan yang sepadan.
Hanya selepas pemilihan dibuat, identiti model didedahkan.
Bersebelahan ialah tempat pengguna memilih model yang ditentukan kepada PK Selebihnya proses ujian adalah sama dengan mod pertempuran
Walau bagaimanapun, hanya keputusan undian dalam mod tanpa nama pertempuran akan dikira. dan model mungkin tidak berhati-hati semasa perbualan mendedahkan identiti anda akan membatalkan keputusan. . Data kadar ditukar kepada markah melalui sistem penilaian Elo.
Sistem penilaian Elo ialah kaedah mengira tahap kemahiran relatif pemain, yang direka oleh profesor fizik Amerika Arpad Elo. Khusus untuk LMSYS, dalam keadaan awal, rating (R) semua model ditetapkan kepada 1000, dan kemudian jangkaan kadar kemenangan (E) dikira berdasarkan formula sedemikian.
Semasa ujian diteruskan, markah akan disemak mengikut markah sebenar (S mempunyai tiga nilai1, 0 dan 0.5, sepadan dengan tiga situasi menang, kalah). dan lukisan masing-masing.
Akhir sekali, selepas semua data yang sah dimasukkan ke dalam pengiraan, skor Elo model diperolehi.
Namun, semasa operasi sebenar, pasukan LMSYS mendapati bahawa kestabilan algoritma ini tidak mencukupi, jadi mereka menggunakan kaedah statistik untuk membetulkannya. Mereka menggunakan kaedah Bootstrap untuk pensampelan berulang, memperoleh hasil yang lebih stabil dan menganggarkan selang keyakinan.
Llama 3 sudah boleh dijalankan pada platform inferens model besar Groq (bukan Musk’s Grok).
Sorotan terbesar platform ini ialah "kelajuannya". Sebelum ini, model Mixtral digunakan untuk mencapai kelajuan hampir 500 token sesaat.
Llama 3 juga sangat pantas apabila berjalan Ia sebenarnya diukur bahawa versi 70B boleh menjalankan kira-kira 300 token sesaat, dan versi 8B adalah hampir 800.
Gambar
Pautan rujukan:
[1]https://lmsys.org/blog/2023-05-03-arena/[2]https://chat.lmsys.org/?leaderboard [3]https://twitter.com/lmsysorg/status/1782483699449332144
Atas ialah kandungan terperinci 750,000 pusingan pertempuran satu lawan satu antara model besar, GPT-4 memenangi kejuaraan, dan Llama 3 menduduki tempat kelima. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Gunakan Bootstrap untuk melaksanakan pusat menegak: Kaedah Flexbox: Gunakan kelas D-Flex, Justify-Content, dan Align-Item-Center untuk meletakkan unsur-unsur dalam bekas Flexbox. Kaedah Kelas Align-Items-Center: Bagi pelayar yang tidak menyokong Flexbox, gunakan kelas Align-Items-Center, dengan syarat unsur induk mempunyai ketinggian yang ditetapkan.

Cara menggunakan Bootstrap untuk mendapatkan nilai bar carian: Menentukan ID atau nama bar carian. Gunakan JavaScript untuk mendapatkan elemen DOM. Mendapat nilai elemen. Lakukan tindakan yang diperlukan.

Bagaimana cara menggunakan butang bootstrap? Perkenalkan CSS bootstrap untuk membuat elemen butang dan tambahkan kelas butang bootstrap untuk menambah teks butang

Untuk menyesuaikan saiz unsur-unsur dalam bootstrap, anda boleh menggunakan kelas dimensi, yang termasuk: menyesuaikan lebar: .col-, .w-, .mw-adjust ketinggian: .h-, .min-h-, .max-h-

Terdapat beberapa cara untuk memasukkan imej dalam bootstrap: masukkan imej secara langsung, menggunakan tag HTML IMG. Dengan komponen imej bootstrap, anda boleh memberikan imej yang responsif dan lebih banyak gaya. Tetapkan saiz imej, gunakan kelas IMG-cecair untuk membuat imej boleh disesuaikan. Tetapkan sempadan, menggunakan kelas IMG-Sempadan. Tetapkan sudut bulat dan gunakan kelas IMG-bulat. Tetapkan bayangan, gunakan kelas bayangan. Saiz semula dan letakkan imej, menggunakan gaya CSS. Menggunakan imej latar belakang, gunakan harta CSS imej latar belakang.

Terdapat dua cara untuk membuat garis perpecahan bootstrap: menggunakan tag, yang mewujudkan garis perpecahan mendatar. Gunakan harta sempadan CSS untuk membuat garis perpecahan gaya tersuai.

Jawapan: Anda boleh menggunakan komponen pemetik tarikh bootstrap untuk melihat tarikh di halaman. Langkah -langkah: Memperkenalkan rangka kerja bootstrap. Buat kotak input pemilih Tarikh dalam HTML. Bootstrap secara automatik akan menambah gaya kepada pemilih. Gunakan JavaScript untuk mendapatkan tarikh yang dipilih.

Untuk menubuhkan rangka kerja bootstrap, anda perlu mengikuti langkah -langkah ini: 1. Rujuk fail bootstrap melalui CDN; 2. Muat turun dan tuan rumah fail pada pelayan anda sendiri; 3. Sertakan fail bootstrap di HTML; 4. Menyusun sass/kurang seperti yang diperlukan; 5. Import fail tersuai (pilihan). Setelah persediaan selesai, anda boleh menggunakan sistem grid Bootstrap, komponen, dan gaya untuk membuat laman web dan aplikasi yang responsif.
