Model bahasa besar (LLMS) telah membuktikan diri mereka sebagai alat yang hebat, cemerlang dalam menafsirkan dan menghasilkan teks yang meniru bahasa manusia. Walau bagaimanapun, ketersediaan model -model ini secara meluas memperkenalkan tugas kompleks dengan tepat menilai prestasi mereka. Di sini, penanda aras LLM mengambil peringkat tengah, memberikan penilaian sistematik untuk mengukur kemahiran model dalam tugas -tugas seperti pemahaman bahasa dan penalaran maju. Artikel ini menerangkan peranan kritikal mereka, menyoroti contoh -contoh yang terkenal, dan mengkaji batasan mereka, menawarkan gambaran penuh kesan mereka terhadap teknologi bahasa.
Penanda aras adalah penting untuk menilai model bahasa yang besar (LLMS), berfungsi sebagai standard untuk mengukur dan membandingkan prestasi. Mereka menawarkan cara yang konsisten untuk menilai kemahiran, dari pemahaman bahasa asas kepada penalaran dan pengaturcaraan lanjutan.
Penanda aras LLM adalah ujian berstruktur yang direka untuk menilai prestasi model bahasa pada tugas tertentu. Mereka membantu menjawab soalan kritikal seperti:
Penyeragaman dan ketelusan dalam penilaian
Penjejakan dan perbaikan kemajuan
Pemilihan model
Inilah proses langkah demi langkah:
Abstraksi dan penalaran korpus (ARC) penanda aras kecerdasan mesin dengan menarik inspirasi dari matriks progresif Raven. Ia mencabar sistem AI untuk mengenal pasti imej seterusnya dalam urutan berdasarkan beberapa contoh, mempromosikan sedikit pembelajaran pukulan yang mencerminkan kebolehan kognitif manusia. Dengan menekankan generalisasi dan memanfaatkan "priors"-pengetahuan mengenai dunia-Arc bertujuan untuk memajukan AI ke arah penalaran seperti manusia. Dataset ini mengikuti kurikulum berstruktur, sistem membimbing secara sistematik melalui tugas -tugas yang semakin kompleks sambil mengukur prestasi melalui ketepatan ramalan. Walaupun kemajuan, AI masih berjuang untuk mencapai prestasi peringkat manusia, menonjolkan keperluan berterusan untuk kemajuan dalam penyelidikan AI.
Korpus abstraksi dan penalaran termasuk pelbagai tugas yang dapat diselesaikan oleh manusia dan sistem kecerdasan buatan. Diilhamkan oleh matriks progresif Raven, format tugas memerlukan peserta untuk mengenal pasti imej seterusnya dalam urutan, menguji kebolehan kognitif mereka.
Penanda aras multimodal dan penanda aras multimodal multimodal (MMMU) menilai model multimodal pada pengetahuan peringkat kolej dan tugas penalaran. Ia termasuk soalan 11.5k dari peperiksaan, kuiz, dan buku teks di enam disiplin: Seni & Reka Bentuk, Perniagaan, Sains, Kesihatan & Perubatan, Kemanusiaan & Sains Sosial, dan Tech & Engineering.
Soalan -soalan ini merangkumi 30 subjek dan 183 subfields, menggabungkan 30 jenis imej heterogen seperti carta, gambar rajah, peta, dan struktur kimia. MMMU memberi tumpuan kepada persepsi lanjutan dan penalaran dengan pengetahuan khusus domain, model yang mencabar untuk melaksanakan tugas peringkat pakar, dan bertujuan untuk mengukur persepsi, pengetahuan, dan kemahiran penalaran dalam model multimodal yang besar (LMM). Penilaian model semasa, termasuk GPT-4V, mendedahkan ruang yang besar untuk penambahbaikan, walaupun dengan model maju hanya mencapai ketepatan 56%. Versi penanda aras yang lebih mantap, MMMU-Pro, telah diperkenalkan untuk penilaian yang dipertingkatkan.
Contoh MMMU sampel dari setiap disiplin. Soalan dan imej memerlukan pengetahuan peringkat pakar untuk memahami dan membuat alasan.
GPQA adalah dataset 448 soalan pelbagai pilihan dalam biologi, fizik, dan kimia, yang direka untuk mencabar pakar dan AI lanjutan. Pakar domain dengan PhD membuat dan mengesahkan soalan untuk memastikan kualiti dan kesukaran yang tinggi. Pakar mencapai ketepatan 65% (74% dengan kesilapan yang dikenal pasti secara retrospektif), manakala bukan pakar dengan PhD dalam bidang lain hanya skor 34%, walaupun akses internet yang tidak terhad, membuktikan soalan adalah "bukti Google." Model AI yang terkemuka seperti GPT-4 mencapai ketepatan 39%. GPQA menyokong penyelidikan mengenai pengawasan berskala untuk AI melampaui kebolehan manusia, membantu manusia mengekstrak maklumat yang benar walaupun pada topik di luar kepakaran mereka.
Pada mulanya, soalan dibuat, dan kemudian seorang pakar dalam domain yang sama memberikan jawapan dan maklum balas mereka, yang mungkin termasuk semakan yang dicadangkan kepada soalan itu. Seterusnya, penulis soalan menyemak semula soalan berdasarkan maklum balas pakar. Soalan yang disemak semula ini kemudiannya dihantar kepada pakar lain dalam domain yang sama dan tiga pengesahan bukan pakar dengan kepakaran dalam bidang lain. Kami menganggap Perjanjian Validators 'Pakar (*) apabila mereka sama ada menjawab dengan betul pada mulanya atau, selepas melihat jawapan yang betul, mereka memberikan penjelasan yang jelas tentang kesilapan awal mereka atau menunjukkan pemahaman yang mendalam tentang penjelasan penulis soalan.
Penanda aras Pemahaman Bahasa Multitask (MMLU) yang besar, yang direka untuk mengukur pengetahuan model teks yang diperoleh semasa pretraining. MMLU menilai model pada 57 tugas yang pelbagai, termasuk matematik asas, sejarah AS, sains komputer, undang -undang, dan banyak lagi. Ia diformat sebagai soalan pelbagai pilihan, membuat penilaian mudah.
Penanda aras ini bertujuan untuk menjadi ujian pemahaman bahasa yang lebih komprehensif dan mencabar daripada tanda aras sebelumnya, yang memerlukan gabungan pengetahuan dan penalaran. Makalah ini membentangkan hasil untuk beberapa model, menunjukkan bahawa model -model pretrain yang besar walaupun perjuangan di MMLU, mencadangkan ruang yang ketara untuk penambahbaikan keupayaan pemahaman bahasa. Selain itu, kertas itu meneroka kesan skala dan penalaan halus pada prestasi MMLU.
Tugas ini memerlukan pemahaman senario terperinci dan tidak disengajakan, memohon sesuai
preseden undang -undang, dan memilih penjelasan yang betul. Tanda semak hijau adalah kebenaran tanah.
HumanEval adalah penanda aras yang direka untuk menilai ketepatan fungsi kod yang dihasilkan oleh model bahasa. Ia terdiri daripada 164 masalah pengaturcaraan dengan tandatangan fungsi, docstring, dan beberapa ujian unit. Masalah ini menilai kemahiran dalam pemahaman bahasa, penalaran, algoritma, dan matematik mudah. Tidak seperti penanda aras sebelumnya yang bergantung kepada persamaan sintaktik, HumanEval menilai sama ada kod yang dihasilkan sebenarnya melepasi ujian unit yang disediakan, dengan itu mengukur ketepatan fungsi. Penanda aras menyoroti jurang antara model bahasa semasa dan penjanaan kod peringkat manusia, mendedahkan bahawa model besar berjuang untuk menghasilkan kod yang betul secara konsisten. Ia berfungsi sebagai ujian yang mencabar dan praktikal untuk menilai keupayaan model bahasa yang menjana kod.
Berikut adalah tiga masalah ilustrasi dari dataset manusia, disertai dengan kebarangkalian bahawa satu sampel dari codex-12b melewati ujian unit: 0.9, 0.17, dan 0.005. Gegaran yang dibentangkan kepada model dipaparkan pada latar belakang putih, sementara penyelesaian yang dihasilkan oleh model yang berjaya diserlahkan pada latar belakang kuning. Walaupun ia tidak menjamin masalah kebaruan, semua masalah telah dibuat dengan teliti dengan tangan dan tidak disalin secara programatik dari sumber yang ada, memastikan dataset yang unik dan mencabar.
SWE-Bench adalah penanda aras yang direka untuk menilai model bahasa yang besar (LLMS) mengenai keupayaan mereka untuk menyelesaikan masalah perisian dunia nyata yang terdapat di GitHub. Ia terdiri daripada 2,294 masalah kejuruteraan perisian yang diperoleh daripada isu -isu GitHub sebenar dan permintaan menarik yang sepadan di 12 repositori Python yang popular. Tugas ini melibatkan menyediakan model bahasa dengan asas kod dan penerangan isu, mencabarnya untuk menghasilkan patch yang menyelesaikan masalah tersebut. Penyelesaian yang dicadangkan oleh model itu kemudiannya dinilai terhadap rangka kerja ujian repositori. SWE-Bench memberi tumpuan kepada menilai keseluruhan sistem "ejen", yang termasuk model AI dan perancah perisian sekitar yang bertanggungjawab untuk menjana arahan, menguraikan output, dan menguruskan gelung interaksi2. Subset yang disahkan manusia yang disebut SWE-Bench yang disahkan yang terdiri daripada 500 sampel memastikan tugas-tugas yang boleh diselesaikan dan memberikan ukuran yang lebih jelas mengenai prestasi ejen pengekodan
Sumber SWE-Bench Contoh tugas dari repositori python dunia nyata dengan menghubungkan isu-isu github untuk menggabungkan penyelesaian permintaan tarik yang menyelesaikan ujian yang berkaitan. Disediakan dengan teks isu dan snapshot codebase, model menghasilkan patch yang dinilai terhadap ujian sebenar
SWE-Lancer adalah penanda aras yang dibangunkan untuk menilai keupayaan model bahasa sempadan (LLMS) dalam menyelesaikan tugas kejuruteraan perisian bebas dunia sebenar yang diperoleh daripada upwork, dengan nilai keseluruhan $ 1 juta. Ia termasuk lebih daripada 1,400 tugas yang terdiri daripada pembetulan pepijat mudah, bernilai $ 50, kepada pelaksanaan ciri kompleks bernilai sehingga $ 32,000. Penanda aras menilai dua jenis tugas: tugas penyumbang individu (IC), di mana model menghasilkan patch kod yang disahkan melalui ujian akhir-ke-akhir oleh jurutera profesional, dan tugas pengurus SWE, di mana model memilih cadangan pelaksanaan terbaik dari pelbagai pilihan. Penemuan menunjukkan bahawa walaupun model maju berjuang untuk menyelesaikan kebanyakan tugas, menonjolkan jurang antara keupayaan AI semasa dan keperluan kejuruteraan perisian dunia nyata. Dengan menghubungkan prestasi model dengan nilai kewangan, SWE-Lancer bertujuan untuk memupuk penyelidikan ke dalam implikasi ekonomi AI dalam pembangunan perisian.
Proses penilaian untuk tugas IC SWE melibatkan penilaian yang ketat di mana prestasi model diuji dengan teliti. Model ini dibentangkan dengan satu set tugas, dan ia mesti menjana penyelesaian yang memenuhi semua ujian yang berkenaan untuk mendapatkan pembayaran. Aliran penilaian ini memastikan bahawa output model bukan sahaja betul tetapi juga komprehensif, memenuhi piawaian tinggi yang diperlukan untuk tugas kejuruteraan perisian dunia nyata.
LiveCodeBench adalah penanda aras novel yang direka untuk menawarkan penilaian holistik dan pencemaran tanpa model bahasa besar (LLMS) mengenai tugas yang berkaitan dengan kod dengan menangani batasan tanda aras yang sedia ada. Ia menggunakan masalah yang diperoleh daripada pertandingan pengekodan mingguan pada platform seperti LEETCODE, ATCODER, dan CODEFORCES, yang ditandai dengan tarikh pelepasan untuk mencegah pencemaran, dan menilai LLMS pada pembaikan diri, pelaksanaan kod, dan ramalan output ujian, sebagai tambahan kepada penjanaan kod. Dengan lebih daripada 500 masalah pengekodan yang diterbitkan antara Mei 2023 dan Mei 2024, LiveCodeBench mempunyai masalah dan ujian yang berkualiti tinggi, kesukaran masalah yang seimbang, dan telah mendedahkan potensi yang berlebihan kepada manusia di kalangan beberapa model, yang menonjolkan kekuatan pelbagai model yang berbeza di pelbagai tugas pengekodan.
LiveCodeBench menawarkan pendekatan penilaian yang komprehensif dengan menyampaikan pelbagai senario pengekodan. Pengekodan adalah tugas yang kompleks, dan kami mencadangkan menilai model bahasa yang besar (LLMS) melalui satu suite setups penilaian yang menangkap pelbagai kemahiran yang berkaitan dengan pengekodan. Di luar tetapan penjanaan kod biasa, kami memperkenalkan tiga senario tambahan: pembaikan diri, pelaksanaan kod, dan tugas ramalan output ujian novel.
CodeForces adalah penanda aras novel yang direka untuk menilai kebolehan penjanaan kod peringkat persaingan model bahasa besar (LLMS) dengan secara langsung interfacing dengan platform CodeForces. Pendekatan ini memastikan penilaian yang tepat melalui akses kepada kes ujian tersembunyi, sokongan untuk hakim khas, dan persekitaran pelaksanaan yang konsisten. Codeforces memperkenalkan sistem penarafan ELO yang diseragamkan, selaras dengan sistem penarafan sendiri Codeforces tetapi dengan varians yang dikurangkan, yang membolehkan perbandingan langsung antara LLM dan pesaing manusia. Penilaian 33 LLMs mendedahkan perbezaan prestasi yang signifikan, dengan Openai's O1-Mini mencapai penarafan ELO tertinggi pada tahun 1578, meletakkannya dalam persentil ke-90 peserta manusia. Penanda aras mendedahkan kemajuan yang dibuat oleh model maju dan ruang yang besar untuk penambahbaikan dalam kemampuan pengaturcaraan kompetitif LLMS terkini. Penanda aras codeforces dan logik pengiraan ELOnya tersedia secara terbuka.
Codeforces membentangkan pelbagai cabaran pengaturcaraan, dan setiap masalah disusun dengan teliti untuk memasukkan komponen penting. Komponen -komponen ini biasanya termasuk: 1) Tajuk deskriptif, 2) had masa untuk penyelesaian, 3) had memori untuk program, 4) Penerangan masalah terperinci, 5) Format input, 6) Format output yang diharapkan, 7) Contoh kes ujian untuk membimbing pengaturcara, dan 8) Nota pilihan yang menyediakan konteks atau petunjuk tambahan. Satu masalah sedemikian, bertajuk "Masalah Codeforces E," boleh diakses di URL: https://codeforces.com/contest/2034/problem/E. Masalah ini dibuat dengan teliti untuk menguji kemahiran pengaturcara dalam persekitaran pengekodan yang kompetitif, mencabar mereka untuk mewujudkan penyelesaian yang cekap dan berkesan dalam kekangan masa dan memori yang diberikan.
τ-Bench secara aktif menilai ejen bahasa mengenai keupayaan mereka untuk berinteraksi dengan pengguna manusia (simulasi) dan API programatik sambil mematuhi dasar khusus domain. Tidak seperti penanda aras sedia ada yang sering memaparkan arahan yang dipermudahkan-mengikuti persediaan, τ-bangku memancarkan perbualan dinamik antara pengguna (disimulasikan oleh model bahasa) dan ejen bahasa yang dilengkapi dengan alat API dan garis panduan dasar domain. Penanda aras ini menggunakan rangka kerja modular yang merangkumi pangkalan data yang realistik dan API, dokumen dasar khusus domain, dan arahan untuk senario pengguna yang pelbagai dengan anotasi kebenaran tanah yang sepadan. Ciri utama τ-bangku adalah proses penilaiannya, yang membandingkan keadaan pangkalan data pada akhir perbualan dengan keadaan matlamat yang diberi penjelasan, yang membolehkan pengukuran objektif membuat keputusan ejen.
Penanda aras juga memperkenalkan metrik baru, lulus, untuk menilai kebolehpercayaan tingkah laku ejen ke atas pelbagai ujian, menonjolkan keperluan untuk ejen yang boleh bertindak secara konsisten dan mengikuti peraturan dengan pasti dalam aplikasi dunia nyata. Eksperimen awal menunjukkan bahawa walaupun agen-agen yang memanggil fungsi-agen yang canggih berjuang dengan penalaran kompleks, pematuhan dasar, dan pengendalian permintaan kompaun.
τ-Bench adalah penanda aras yang inovatif di mana ejen terlibat dengan alat API pangkalan data dan pengguna LM yang disimulasikan untuk menyelesaikan tugas. Ia menilai keupayaan ejen untuk mengumpulkan dan menyampaikan maklumat yang penting kepada dan dari pengguna melalui pelbagai interaksi, sementara juga menguji keupayaannya untuk menyelesaikan isu-isu yang rumit dalam masa nyata, memastikan kepatuhan kepada garis panduan yang digariskan dalam dokumen dasar khusus domain. Dalam tugas τ-udara, ejen mesti menolak permintaan pengguna untuk menukar penerbangan ekonomi asas berdasarkan dasar domain dan kemudian mencadangkan penyelesaian alternatif-canceling dan rebooking. Tugas ini memerlukan ejen untuk memohon penalaran sifar dalam persekitaran yang kompleks yang melibatkan pangkalan data, peraturan, dan niat pengguna.
SuperGlue menilai keupayaan model pemahaman bahasa semulajadi (NLU) melalui penanda aras lanjutan, yang menawarkan penilaian yang lebih menuntut daripada pendahulunya, gam. Semasa mengekalkan dua tugas yang paling mencabar, SuperGlue memperkenalkan tugas -tugas baru dan lebih rumit yang memerlukan penalaran yang lebih mendalam, pengetahuan akal, dan pemahaman kontekstual. Ia mengembang di luar Klasifikasi Kalimat dan Kalimat Gam untuk memasukkan tugas-tugas seperti Resolusi Menjawab dan Coreference soalan. Pereka superglue membuat tugas-tugas yang dapat dikendalikan oleh penceramah bahasa Inggeris yang berpendidikan kolej, tetapi tugas-tugas ini masih melebihi keupayaan sistem terkini. Penanda aras ini menyediakan garis dasar manusia yang komprehensif untuk perbandingan dan menawarkan toolkit untuk penilaian model. SuperGlue bertujuan untuk mengukur dan memacu kemajuan ke arah membangunkan teknologi pemahaman bahasa umum.
Set pembangunan tugas superglue menawarkan pelbagai contoh, masing -masing dibentangkan dalam format yang unik. Contoh -contoh ini biasanya termasuk teks berani untuk menunjukkan format khusus untuk setiap tugas. Input model mengintegrasikan teks italiced untuk memberikan konteks atau maklumat penting. Ia khusus menandakan teks yang digariskan dalam input, sering menonjolkan tumpuan atau keperluan tertentu. Akhir sekali, ia menggunakan font monospaced untuk mewakili output yang dijangkakan, mempamerkan tindak balas atau penyelesaian yang diharapkan.
Hellaswag adalah dataset penanda aras untuk menilai kesimpulan bahasa semulajadi (NLI). Ia mencabar mesin untuk menyelesaikan ayat berdasarkan konteks yang diberikan. Dibangunkan oleh Zellers et al., Ia mengandungi 70,000 masalah. Manusia mencapai lebih daripada 95% ketepatan, manakala model teratas skor di bawah 50%. Dataset menggunakan penapisan adversarial (AF) untuk menghasilkan jawapan yang tidak masuk akal yang tidak masuk akal, menjadikannya lebih sukar bagi model untuk mencari penyelesaian yang betul. Ini menonjolkan batasan model pembelajaran mendalam seperti Bert dalam penalaran akal. Hellaswag menekankan perlunya penanda aras yang berkembang yang menjadikan sistem AI dicabar dalam memahami senario seperti manusia.
Model -model seperti Bert sering berjuang untuk menyelesaikan ayat -ayat di Hellaswag, walaupun ketika mereka datang dari pengedaran yang sama seperti data latihan. Pengakhiran yang tidak betul, walaupun secara kontekstual relevan, gagal memenuhi standard manusia ketepatan dan kebolehan. Sebagai contoh, dalam laluan Wikihow, pilihan A menasihatkan pemandu untuk berhenti di lampu merah selama dua saat, yang jelas salah dan tidak praktikal.
Dataset matematik, yang diperkenalkan dalam artikel itu, mengandungi 12,500 masalah persaingan matematik yang mencabar. Ia menilai kebolehan menyelesaikan masalah model pembelajaran mesin. Masalah ini datang dari pertandingan seperti AMC 10, AMC 12, dan AIME, yang meliputi pelbagai tahap kesukaran dan subjek seperti pra-algebra, algebra, teori nombor, dan geometri. Tidak seperti masalah matematik biasa yang boleh diselesaikan dengan formula yang diketahui, masalah matematik memerlukan teknik penyelesaian masalah dan heuristik. Setiap masalah termasuk penyelesaian langkah demi langkah, membantu model belajar untuk menghasilkan derivasi jawapan dan penjelasan untuk output yang lebih banyak diterjemahkan.
Contoh ini termasuk masalah matematik yang pelbagai dengan penyelesaian yang dihasilkan dan penyelesaian kebenaran tanah yang sepadan. AIME yang paling terkini, yang diadakan pada 6 Februari, dengan cepat mendapat minat dalam komuniti matematik. Orang ramai berkongsi masalah dan penyelesaian di YouTube, forum dalam talian, dan blog tidak lama selepas peperiksaan. Perbincangan pesat ini menyoroti semangat masyarakat untuk cabaran -cabaran ini. Sebagai contoh, penyelesaian yang dihasilkan oleh masalah pertama adalah betul dan jelas dijelaskan, menunjukkan output model yang berjaya. Sebaliknya, masalah kedua, yang melibatkan gabungan dan angka, mencabar model, yang membawa kepada penyelesaian yang salah.
Peperiksaan Matematik Undangan Amerika (AIME) adalah pertandingan matematik yang berprestij dan peringkat kedua dalam memilih pasukan AS untuk Olimpik Matematik Antarabangsa. Kebanyakan peserta adalah pelajar sekolah menengah, tetapi beberapa pelajar sekolah menengah yang berbakat layak setiap tahun. Persatuan Matematik Amerika menjalankan peperiksaan ini.
Komuniti matematik dengan cepat mengambil minat dalam AIME baru -baru ini pada 6 Februari, berkongsi dan membincangkan masalah dan penyelesaian di seluruh YouTube, forum, dan blog tidak lama selepas peperiksaan. Analisis pesat ini mencerminkan semangat masyarakat untuk pertandingan yang mencabar ini.
Imej ini menandakan masalah dan penyelesaian contoh dari kertas AIME 2025. Penanda aras ini memberi tumpuan kepada keupayaan penalaran matematik LLM.
Pemaju membuat dan melatih model baru hampir setiap hari pada dataset yang besar, melengkapkan mereka dengan pelbagai keupayaan. Penanda aras LLM memainkan peranan penting dalam membandingkan model -model ini dengan menjawab soalan -soalan penting, seperti model mana yang terbaik untuk menulis kod, yang mana satu cemerlang dalam penalaran, dan yang mengendalikan tugas NLP paling berkesan. Oleh itu, menilai model pada tanda aras ini menjadi langkah wajib. Semasa kami maju ke arah AGI, penyelidik juga mewujudkan tanda aras baru untuk bersaing dengan kemajuan.
Atas ialah kandungan terperinci 14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!