Senarai berwibawa "Pertandingan Kelayakan Model Besar" Chatbot Arena telah dimuat semula:
Google Bard melepasi GPT-4 dan menduduki tempat kedua, kedua selepas GPT-4 Turbo.
Namun, ramai netizen menyatakan "tidak puas hati" dan "tidak adil" mengenai perkara ini.
Ternyata Jeff Dean, ketua Google AI, mendedahkan bahawa prestasi Bard telah bertambah baik kerana ia dilengkapi dengan versi baharu model besar-Gemini Pro-skala.
Ini juga bermakna Bard bermain dalam "perlawanan peringkat" mempunyai keupayaan untuk menyambung ke Internet.
Ragu-ragu netizen berkisar tentang perkara ini:
Sangat mudah untuk menimbulkan salah faham dengan mencampurkan model besar dalam talian dan luar talian pada senarai kedudukan yang sama. .
Dalam pelbagai keraguan, Imsys secara rasmi bertindak balas, menyatakan:
arena kedudukan adalah masa nyata adalah terbuka dan telus, dan penyelidikan mengenai kepelbagaian segera pengguna dan kualiti pengundian serta set data yang sepadan akan dikeluarkan tidak lama lagi
Berkenaan isu yang paling dibimbangkan oleh netizen, GPT-4, yang diatasi oleh Bard, adalah satu; versi luar talian, Imsys berkata " Jika akses kepada data masa nyata boleh meningkatkan pengalaman pengguna, kedudukan akan mencerminkannya."
Dan secara langsung @OpenAI dan Bing, serta eksekutif Microsoft Mikhail Parakhin, menyatakan kesediaan mereka untuk menambah versi dalam talian GPT-4 atau Bing Copilot ke arena. Berita terkini ialah model terbaru OpenAI gpt-4-0125-preview kini telah memasuki arena dan sedang menunggu pengguna untuk mengambil bahagian dalam pengundian.Chatbot Arena ialah senarai model besar yang berwibawa, dicipta oleh organisasi Imsys (Organisasi Sistem Model Besar) yang diketuai oleh penyelidik UC Berkeley.
Kedudukan ini menggunakan peraturan undian 1V1pertempuran tanpa nama dan disenaraikan berdasarkan sistem penilaian Elo.
Secara khusus, halaman undian adalah seperti berikut Kedua-dua model, Model A dan B, kedua-duanya tanpa nama. dan A dan B. Kedua-dua A dan B adalah sama baik.
(tiada seri) :
Selain itu, papan pendahulu Arena Chatbot menggunakan bootstrap untuk mencuba secara rawak anggaran skor Elo sebanyak 1,000 kali untuk menilai selang keyakinan dan banyak lagi.
Kadar kemenangan purata bagi model tunggal berbanding semua model lain adalah seperti berikut:
Walau bagaimanapun, perlu diperhatikan bahawa kedudukan Arena adalah masa nyata, dan walaupun Bard kini berada di kedudukan kedua, ia hanya mempunyai jumlah lebih daripada 3,000 undi.
Sebagai perbandingan, jumlah undian untuk GPT-4 Turbo telah mencecah 30,000+, dan undian kedua-dua versi yang diatasi juga beberapa kali ganda berbanding undian Bard.
Sekarang versi terkini GPT-4 telah memasuki pasaran (walaupun masih belum dikemas kini mengenai ranking), kita perlu menunggu keputusan seterusnya~
Pautan rujukan: https:// twitter.com/lmsysorg /status/1752035632489300239.
Atas ialah kandungan terperinci GPT-4 enggan menerima dan telah diambil alih oleh Bard: model terbaru telah memasuki pasaran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!