14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025-AI-php.cn

Model bahasa besar (LLMS) telah membuktikan diri mereka sebagai alat yang hebat, cemerlang dalam menafsirkan dan menghasilkan teks yang meniru bahasa manusia. Walau bagaimanapun, ketersediaan model -model ini secara meluas memperkenalkan tugas kompleks dengan tepat menilai prestasi mereka. Di sini, penanda aras LLM mengambil peringkat tengah, memberikan penilaian sistematik untuk mengukur kemahiran model dalam tugas -tugas seperti pemahaman bahasa dan penalaran maju. Artikel ini menerangkan peranan kritikal mereka, menyoroti contoh -contoh yang terkenal, dan mengkaji batasan mereka, menawarkan gambaran penuh kesan mereka terhadap teknologi bahasa.

Penanda aras adalah penting untuk menilai model bahasa yang besar (LLMS), berfungsi sebagai standard untuk mengukur dan membandingkan prestasi. Mereka menawarkan cara yang konsisten untuk menilai kemahiran, dari pemahaman bahasa asas kepada penalaran dan pengaturcaraan lanjutan.

Jadual Kandungan

Apakah tanda aras LLM?
Apakah keperluan untuk penanda aras LLM?
Bekerja dengan tanda aras LLM
Penanda aras penalaran
- ARC: Cabaran Abstraksi dan Penalaran
- Pemahaman multimodal multi-disiplin besar-besaran (MMMU)
- GPQA: Penanda aras yang mencabar untuk penalaran lanjutan
- Mengukur pemahaman bahasa multitask besar -besaran (MMLU)
Penanda aras pengekodan
- Manusia: Menilai Penjanaan Kod dari Model Bahasa
- Swe-Bench
- SWE-LANCER
- Bangku kod langsung
- Codeforces
Penanda aras penggunaan alat (agentik)
- Tau-tau
Pemahaman bahasa dan soalan menjawab penanda aras
- Superglue
- Helloswag
Penanda aras matematik
- Dataset matematik
- AIME 2025
Kesimpulan

Apakah tanda aras LLM?

Penanda aras LLM adalah ujian berstruktur yang direka untuk menilai prestasi model bahasa pada tugas tertentu. Mereka membantu menjawab soalan kritikal seperti:

Bolehkah ini akan mengendalikan tugas pengekodan dengan berkesan?
Sejauh mana ia memberikan jawapan yang relevan dalam perbualan?
Adakah ia mampu menyelesaikan masalah pemikiran yang kompleks?

Ciri -ciri utama penanda aras LLM

Ujian Standard : Setiap penanda aras terdiri daripada satu set tugas dengan jawapan yang betul, yang membolehkan penilaian yang konsisten.
Pelbagai bidang penilaian : Penanda aras boleh memberi tumpuan kepada pelbagai kemahiran, termasuk:
- Pemahaman bahasa
- Penyelesaian masalah matematik
- Kebolehan pengekodan
- Kualiti perbualan
- Pertimbangan Keselamatan dan Etika

Apakah keperluan untuk penanda aras LLM?

Penyeragaman dan ketelusan dalam penilaian

Konsistensi Perbandingan: Penanda aras memudahkan perbandingan langsung di kalangan LLM, memastikan penilaian adalah telus dan boleh dihasilkan.
Snapshot Prestasi: Mereka menawarkan penilaian pesat keupayaan LLM baru berbanding dengan model yang ditubuhkan.

Penjejakan dan perbaikan kemajuan

Pemantauan Kemajuan: Penanda aras membantu mengamati penambahbaikan prestasi model dari masa ke masa, membantu para penyelidik dalam menyempurnakan model mereka.
Membongkar batasan: Alat ini boleh menentukan kawasan di mana model jatuh pendek, membimbing usaha penyelidikan dan pembangunan masa depan.

Pemilihan model

Pilihan yang dimaklumkan: Bagi pengamal, tanda aras menjadi rujukan penting apabila memilih model untuk tugas-tugas tertentu, memastikan keputusan yang baik untuk aplikasi seperti chatbots atau sistem sokongan pelanggan.

Bekerja dengan tanda aras LLM

Inilah proses langkah demi langkah:

Input dan ujian dataset
- Penanda aras menyediakan pelbagai tugas untuk LLM untuk diselesaikan, seperti menjawab soalan atau menghasilkan kod.
- Setiap penanda aras termasuk dataset input teks dan jawapan "kebenaran tanah" yang sepadan untuk penilaian.
Penilaian dan Pemarkahan Prestasi : Setelah menyelesaikan tugas, respons model dinilai menggunakan metrik piawai, seperti ketepatan atau skor BLEU, bergantung kepada jenis tugas.
Peringkat LLM dan Leaderboards : Model disenaraikan berdasarkan skor mereka, sering dipaparkan pada papan pendahulu yang agregat hasil dari pelbagai tanda aras.

Penanda aras penalaran

1. Arka: cabaran abstraksi dan penalaran

Abstraksi dan penalaran korpus (ARC) penanda aras kecerdasan mesin dengan menarik inspirasi dari matriks progresif Raven. Ia mencabar sistem AI untuk mengenal pasti imej seterusnya dalam urutan berdasarkan beberapa contoh, mempromosikan sedikit pembelajaran pukulan yang mencerminkan kebolehan kognitif manusia. Dengan menekankan generalisasi dan memanfaatkan "priors"-pengetahuan mengenai dunia-Arc bertujuan untuk memajukan AI ke arah penalaran seperti manusia. Dataset ini mengikuti kurikulum berstruktur, sistem membimbing secara sistematik melalui tugas -tugas yang semakin kompleks sambil mengukur prestasi melalui ketepatan ramalan. Walaupun kemajuan, AI masih berjuang untuk mencapai prestasi peringkat manusia, menonjolkan keperluan berterusan untuk kemajuan dalam penyelidikan AI.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Korpus abstraksi dan penalaran termasuk pelbagai tugas yang dapat diselesaikan oleh manusia dan sistem kecerdasan buatan. Diilhamkan oleh matriks progresif Raven, format tugas memerlukan peserta untuk mengenal pasti imej seterusnya dalam urutan, menguji kebolehan kognitif mereka.

2. Pemahaman multimodal multi-disiplin besar-besaran (MMMU)

Penanda aras multimodal dan penanda aras multimodal multimodal (MMMU) menilai model multimodal pada pengetahuan peringkat kolej dan tugas penalaran. Ia termasuk soalan 11.5k dari peperiksaan, kuiz, dan buku teks di enam disiplin: Seni & Reka Bentuk, Perniagaan, Sains, Kesihatan & Perubatan, Kemanusiaan & Sains Sosial, dan Tech & Engineering.

Soalan -soalan ini merangkumi 30 subjek dan 183 subfields, menggabungkan 30 jenis imej heterogen seperti carta, gambar rajah, peta, dan struktur kimia. MMMU memberi tumpuan kepada persepsi lanjutan dan penalaran dengan pengetahuan khusus domain, model yang mencabar untuk melaksanakan tugas peringkat pakar, dan bertujuan untuk mengukur persepsi, pengetahuan, dan kemahiran penalaran dalam model multimodal yang besar (LMM). Penilaian model semasa, termasuk GPT-4V, mendedahkan ruang yang besar untuk penambahbaikan, walaupun dengan model maju hanya mencapai ketepatan 56%. Versi penanda aras yang lebih mantap, MMMU-Pro, telah diperkenalkan untuk penilaian yang dipertingkatkan.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Contoh MMMU sampel dari setiap disiplin. Soalan dan imej memerlukan pengetahuan peringkat pakar untuk memahami dan membuat alasan.

3. GPQA: Penanda aras yang mencabar untuk penalaran lanjutan

GPQA adalah dataset 448 soalan pelbagai pilihan dalam biologi, fizik, dan kimia, yang direka untuk mencabar pakar dan AI lanjutan. Pakar domain dengan PhD membuat dan mengesahkan soalan untuk memastikan kualiti dan kesukaran yang tinggi. Pakar mencapai ketepatan 65% (74% dengan kesilapan yang dikenal pasti secara retrospektif), manakala bukan pakar dengan PhD dalam bidang lain hanya skor 34%, walaupun akses internet yang tidak terhad, membuktikan soalan adalah "bukti Google." Model AI yang terkemuka seperti GPT-4 mencapai ketepatan 39%. GPQA menyokong penyelidikan mengenai pengawasan berskala untuk AI melampaui kebolehan manusia, membantu manusia mengekstrak maklumat yang benar walaupun pada topik di luar kepakaran mereka.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Pada mulanya, soalan dibuat, dan kemudian seorang pakar dalam domain yang sama memberikan jawapan dan maklum balas mereka, yang mungkin termasuk semakan yang dicadangkan kepada soalan itu. Seterusnya, penulis soalan menyemak semula soalan berdasarkan maklum balas pakar. Soalan yang disemak semula ini kemudiannya dihantar kepada pakar lain dalam domain yang sama dan tiga pengesahan bukan pakar dengan kepakaran dalam bidang lain. Kami menganggap Perjanjian Validators 'Pakar (*) apabila mereka sama ada menjawab dengan betul pada mulanya atau, selepas melihat jawapan yang betul, mereka memberikan penjelasan yang jelas tentang kesilapan awal mereka atau menunjukkan pemahaman yang mendalam tentang penjelasan penulis soalan.

4. Mengukur Pemahaman Bahasa Multitask Besar (MMLU)

Penanda aras Pemahaman Bahasa Multitask (MMLU) yang besar, yang direka untuk mengukur pengetahuan model teks yang diperoleh semasa pretraining. MMLU menilai model pada 57 tugas yang pelbagai, termasuk matematik asas, sejarah AS, sains komputer, undang -undang, dan banyak lagi. Ia diformat sebagai soalan pelbagai pilihan, membuat penilaian mudah.

Penanda aras ini bertujuan untuk menjadi ujian pemahaman bahasa yang lebih komprehensif dan mencabar daripada tanda aras sebelumnya, yang memerlukan gabungan pengetahuan dan penalaran. Makalah ini membentangkan hasil untuk beberapa model, menunjukkan bahawa model -model pretrain yang besar walaupun perjuangan di MMLU, mencadangkan ruang yang ketara untuk penambahbaikan keupayaan pemahaman bahasa. Selain itu, kertas itu meneroka kesan skala dan penalaan halus pada prestasi MMLU.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Tugas ini memerlukan pemahaman senario terperinci dan tidak disengajakan, memohon sesuai

preseden undang -undang, dan memilih penjelasan yang betul. Tanda semak hijau adalah kebenaran tanah.

Penanda aras pengekodan

5. HumanEval: Menilai Generasi Kod dari Model Bahasa

HumanEval adalah penanda aras yang direka untuk menilai ketepatan fungsi kod yang dihasilkan oleh model bahasa. Ia terdiri daripada 164 masalah pengaturcaraan dengan tandatangan fungsi, docstring, dan beberapa ujian unit. Masalah ini menilai kemahiran dalam pemahaman bahasa, penalaran, algoritma, dan matematik mudah. Tidak seperti penanda aras sebelumnya yang bergantung kepada persamaan sintaktik, HumanEval menilai sama ada kod yang dihasilkan sebenarnya melepasi ujian unit yang disediakan, dengan itu mengukur ketepatan fungsi. Penanda aras menyoroti jurang antara model bahasa semasa dan penjanaan kod peringkat manusia, mendedahkan bahawa model besar berjuang untuk menghasilkan kod yang betul secara konsisten. Ia berfungsi sebagai ujian yang mencabar dan praktikal untuk menilai keupayaan model bahasa yang menjana kod.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Berikut adalah tiga masalah ilustrasi dari dataset manusia, disertai dengan kebarangkalian bahawa satu sampel dari codex-12b melewati ujian unit: 0.9, 0.17, dan 0.005. Gegaran yang dibentangkan kepada model dipaparkan pada latar belakang putih, sementara penyelesaian yang dihasilkan oleh model yang berjaya diserlahkan pada latar belakang kuning. Walaupun ia tidak menjamin masalah kebaruan, semua masalah telah dibuat dengan teliti dengan tangan dan tidak disalin secara programatik dari sumber yang ada, memastikan dataset yang unik dan mencabar.

6. Swe-Bench

SWE-Bench adalah penanda aras yang direka untuk menilai model bahasa yang besar (LLMS) mengenai keupayaan mereka untuk menyelesaikan masalah perisian dunia nyata yang terdapat di GitHub. Ia terdiri daripada 2,294 masalah kejuruteraan perisian yang diperoleh daripada isu -isu GitHub sebenar dan permintaan menarik yang sepadan di 12 repositori Python yang popular. Tugas ini melibatkan menyediakan model bahasa dengan asas kod dan penerangan isu, mencabarnya untuk menghasilkan patch yang menyelesaikan masalah tersebut. Penyelesaian yang dicadangkan oleh model itu kemudiannya dinilai terhadap rangka kerja ujian repositori. SWE-Bench memberi tumpuan kepada menilai keseluruhan sistem "ejen", yang termasuk model AI dan perancah perisian sekitar yang bertanggungjawab untuk menjana arahan, menguraikan output, dan menguruskan gelung interaksi2. Subset yang disahkan manusia yang disebut SWE-Bench yang disahkan yang terdiri daripada 500 sampel memastikan tugas-tugas yang boleh diselesaikan dan memberikan ukuran yang lebih jelas mengenai prestasi ejen pengekodan

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Sumber SWE-Bench Contoh tugas dari repositori python dunia nyata dengan menghubungkan isu-isu github untuk menggabungkan penyelesaian permintaan tarik yang menyelesaikan ujian yang berkaitan. Disediakan dengan teks isu dan snapshot codebase, model menghasilkan patch yang dinilai terhadap ujian sebenar

7. Swe-Lancer

SWE-Lancer adalah penanda aras yang dibangunkan untuk menilai keupayaan model bahasa sempadan (LLMS) dalam menyelesaikan tugas kejuruteraan perisian bebas dunia sebenar yang diperoleh daripada upwork, dengan nilai keseluruhan $ 1 juta. Ia termasuk lebih daripada 1,400 tugas yang terdiri daripada pembetulan pepijat mudah, bernilai $ 50, kepada pelaksanaan ciri kompleks bernilai sehingga $ 32,000. Penanda aras menilai dua jenis tugas: tugas penyumbang individu (IC), di mana model menghasilkan patch kod yang disahkan melalui ujian akhir-ke-akhir oleh jurutera profesional, dan tugas pengurus SWE, di mana model memilih cadangan pelaksanaan terbaik dari pelbagai pilihan. Penemuan menunjukkan bahawa walaupun model maju berjuang untuk menyelesaikan kebanyakan tugas, menonjolkan jurang antara keupayaan AI semasa dan keperluan kejuruteraan perisian dunia nyata. Dengan menghubungkan prestasi model dengan nilai kewangan, SWE-Lancer bertujuan untuk memupuk penyelidikan ke dalam implikasi ekonomi AI dalam pembangunan perisian.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Proses penilaian untuk tugas IC SWE melibatkan penilaian yang ketat di mana prestasi model diuji dengan teliti. Model ini dibentangkan dengan satu set tugas, dan ia mesti menjana penyelesaian yang memenuhi semua ujian yang berkenaan untuk mendapatkan pembayaran. Aliran penilaian ini memastikan bahawa output model bukan sahaja betul tetapi juga komprehensif, memenuhi piawaian tinggi yang diperlukan untuk tugas kejuruteraan perisian dunia nyata.

8. bangku kod langsung

LiveCodeBench adalah penanda aras novel yang direka untuk menawarkan penilaian holistik dan pencemaran tanpa model bahasa besar (LLMS) mengenai tugas yang berkaitan dengan kod dengan menangani batasan tanda aras yang sedia ada. Ia menggunakan masalah yang diperoleh daripada pertandingan pengekodan mingguan pada platform seperti LEETCODE, ATCODER, dan CODEFORCES, yang ditandai dengan tarikh pelepasan untuk mencegah pencemaran, dan menilai LLMS pada pembaikan diri, pelaksanaan kod, dan ramalan output ujian, sebagai tambahan kepada penjanaan kod. Dengan lebih daripada 500 masalah pengekodan yang diterbitkan antara Mei 2023 dan Mei 2024, LiveCodeBench mempunyai masalah dan ujian yang berkualiti tinggi, kesukaran masalah yang seimbang, dan telah mendedahkan potensi yang berlebihan kepada manusia di kalangan beberapa model, yang menonjolkan kekuatan pelbagai model yang berbeza di pelbagai tugas pengekodan.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

LiveCodeBench menawarkan pendekatan penilaian yang komprehensif dengan menyampaikan pelbagai senario pengekodan. Pengekodan adalah tugas yang kompleks, dan kami mencadangkan menilai model bahasa yang besar (LLMS) melalui satu suite setups penilaian yang menangkap pelbagai kemahiran yang berkaitan dengan pengekodan. Di luar tetapan penjanaan kod biasa, kami memperkenalkan tiga senario tambahan: pembaikan diri, pelaksanaan kod, dan tugas ramalan output ujian novel.

9. Codeforces

CodeForces adalah penanda aras novel yang direka untuk menilai kebolehan penjanaan kod peringkat persaingan model bahasa besar (LLMS) dengan secara langsung interfacing dengan platform CodeForces. Pendekatan ini memastikan penilaian yang tepat melalui akses kepada kes ujian tersembunyi, sokongan untuk hakim khas, dan persekitaran pelaksanaan yang konsisten. Codeforces memperkenalkan sistem penarafan ELO yang diseragamkan, selaras dengan sistem penarafan sendiri Codeforces tetapi dengan varians yang dikurangkan, yang membolehkan perbandingan langsung antara LLM dan pesaing manusia. Penilaian 33 LLMs mendedahkan perbezaan prestasi yang signifikan, dengan Openai's O1-Mini mencapai penarafan ELO tertinggi pada tahun 1578, meletakkannya dalam persentil ke-90 peserta manusia. Penanda aras mendedahkan kemajuan yang dibuat oleh model maju dan ruang yang besar untuk penambahbaikan dalam kemampuan pengaturcaraan kompetitif LLMS terkini. Penanda aras codeforces dan logik pengiraan ELOnya tersedia secara terbuka.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Codeforces membentangkan pelbagai cabaran pengaturcaraan, dan setiap masalah disusun dengan teliti untuk memasukkan komponen penting. Komponen -komponen ini biasanya termasuk: 1) Tajuk deskriptif, 2) had masa untuk penyelesaian, 3) had memori untuk program, 4) Penerangan masalah terperinci, 5) Format input, 6) Format output yang diharapkan, 7) Contoh kes ujian untuk membimbing pengaturcara, dan 8) Nota pilihan yang menyediakan konteks atau petunjuk tambahan. Satu masalah sedemikian, bertajuk "Masalah Codeforces E," boleh diakses di URL: https://codeforces.com/contest/2034/problem/E. Masalah ini dibuat dengan teliti untuk menguji kemahiran pengaturcara dalam persekitaran pengekodan yang kompetitif, mencabar mereka untuk mewujudkan penyelesaian yang cekap dan berkesan dalam kekangan masa dan memori yang diberikan.

Penanda aras penggunaan alat (agentik)

10. Tau-Bench

τ-Bench secara aktif menilai ejen bahasa mengenai keupayaan mereka untuk berinteraksi dengan pengguna manusia (simulasi) dan API programatik sambil mematuhi dasar khusus domain. Tidak seperti penanda aras sedia ada yang sering memaparkan arahan yang dipermudahkan-mengikuti persediaan, τ-bangku memancarkan perbualan dinamik antara pengguna (disimulasikan oleh model bahasa) dan ejen bahasa yang dilengkapi dengan alat API dan garis panduan dasar domain. Penanda aras ini menggunakan rangka kerja modular yang merangkumi pangkalan data yang realistik dan API, dokumen dasar khusus domain, dan arahan untuk senario pengguna yang pelbagai dengan anotasi kebenaran tanah yang sepadan. Ciri utama τ-bangku adalah proses penilaiannya, yang membandingkan keadaan pangkalan data pada akhir perbualan dengan keadaan matlamat yang diberi penjelasan, yang membolehkan pengukuran objektif membuat keputusan ejen.

Penanda aras juga memperkenalkan metrik baru, lulus, untuk menilai kebolehpercayaan tingkah laku ejen ke atas pelbagai ujian, menonjolkan keperluan untuk ejen yang boleh bertindak secara konsisten dan mengikuti peraturan dengan pasti dalam aplikasi dunia nyata. Eksperimen awal menunjukkan bahawa walaupun agen-agen yang memanggil fungsi-agen yang canggih berjuang dengan penalaran kompleks, pematuhan dasar, dan pengendalian permintaan kompaun.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

τ-Bench adalah penanda aras yang inovatif di mana ejen terlibat dengan alat API pangkalan data dan pengguna LM yang disimulasikan untuk menyelesaikan tugas. Ia menilai keupayaan ejen untuk mengumpulkan dan menyampaikan maklumat yang penting kepada dan dari pengguna melalui pelbagai interaksi, sementara juga menguji keupayaannya untuk menyelesaikan isu-isu yang rumit dalam masa nyata, memastikan kepatuhan kepada garis panduan yang digariskan dalam dokumen dasar khusus domain. Dalam tugas τ-udara, ejen mesti menolak permintaan pengguna untuk menukar penerbangan ekonomi asas berdasarkan dasar domain dan kemudian mencadangkan penyelesaian alternatif-canceling dan rebooking. Tugas ini memerlukan ejen untuk memohon penalaran sifar dalam persekitaran yang kompleks yang melibatkan pangkalan data, peraturan, dan niat pengguna.

Pemahaman bahasa dan soalan menjawab penanda aras

11. Superglue

SuperGlue menilai keupayaan model pemahaman bahasa semulajadi (NLU) melalui penanda aras lanjutan, yang menawarkan penilaian yang lebih menuntut daripada pendahulunya, gam. Semasa mengekalkan dua tugas yang paling mencabar, SuperGlue memperkenalkan tugas -tugas baru dan lebih rumit yang memerlukan penalaran yang lebih mendalam, pengetahuan akal, dan pemahaman kontekstual. Ia mengembang di luar Klasifikasi Kalimat dan Kalimat Gam untuk memasukkan tugas-tugas seperti Resolusi Menjawab dan Coreference soalan. Pereka superglue membuat tugas-tugas yang dapat dikendalikan oleh penceramah bahasa Inggeris yang berpendidikan kolej, tetapi tugas-tugas ini masih melebihi keupayaan sistem terkini. Penanda aras ini menyediakan garis dasar manusia yang komprehensif untuk perbandingan dan menawarkan toolkit untuk penilaian model. SuperGlue bertujuan untuk mengukur dan memacu kemajuan ke arah membangunkan teknologi pemahaman bahasa umum.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Set pembangunan tugas superglue menawarkan pelbagai contoh, masing -masing dibentangkan dalam format yang unik. Contoh -contoh ini biasanya termasuk teks berani untuk menunjukkan format khusus untuk setiap tugas. Input model mengintegrasikan teks italiced untuk memberikan konteks atau maklumat penting. Ia khusus menandakan teks yang digariskan dalam input, sering menonjolkan tumpuan atau keperluan tertentu. Akhir sekali, ia menggunakan font monospaced untuk mewakili output yang dijangkakan, mempamerkan tindak balas atau penyelesaian yang diharapkan.

12. Helloswag

Hellaswag adalah dataset penanda aras untuk menilai kesimpulan bahasa semulajadi (NLI). Ia mencabar mesin untuk menyelesaikan ayat berdasarkan konteks yang diberikan. Dibangunkan oleh Zellers et al., Ia mengandungi 70,000 masalah. Manusia mencapai lebih daripada 95% ketepatan, manakala model teratas skor di bawah 50%. Dataset menggunakan penapisan adversarial (AF) untuk menghasilkan jawapan yang tidak masuk akal yang tidak masuk akal, menjadikannya lebih sukar bagi model untuk mencari penyelesaian yang betul. Ini menonjolkan batasan model pembelajaran mendalam seperti Bert dalam penalaran akal. Hellaswag menekankan perlunya penanda aras yang berkembang yang menjadikan sistem AI dicabar dalam memahami senario seperti manusia.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Model -model seperti Bert sering berjuang untuk menyelesaikan ayat -ayat di Hellaswag, walaupun ketika mereka datang dari pengedaran yang sama seperti data latihan. Pengakhiran yang tidak betul, walaupun secara kontekstual relevan, gagal memenuhi standard manusia ketepatan dan kebolehan. Sebagai contoh, dalam laluan Wikihow, pilihan A menasihatkan pemandu untuk berhenti di lampu merah selama dua saat, yang jelas salah dan tidak praktikal.

Penanda aras matematik

13. Dataset matematik

Dataset matematik, yang diperkenalkan dalam artikel itu, mengandungi 12,500 masalah persaingan matematik yang mencabar. Ia menilai kebolehan menyelesaikan masalah model pembelajaran mesin. Masalah ini datang dari pertandingan seperti AMC 10, AMC 12, dan AIME, yang meliputi pelbagai tahap kesukaran dan subjek seperti pra-algebra, algebra, teori nombor, dan geometri. Tidak seperti masalah matematik biasa yang boleh diselesaikan dengan formula yang diketahui, masalah matematik memerlukan teknik penyelesaian masalah dan heuristik. Setiap masalah termasuk penyelesaian langkah demi langkah, membantu model belajar untuk menghasilkan derivasi jawapan dan penjelasan untuk output yang lebih banyak diterjemahkan.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Contoh ini termasuk masalah matematik yang pelbagai dengan penyelesaian yang dihasilkan dan penyelesaian kebenaran tanah yang sepadan. AIME yang paling terkini, yang diadakan pada 6 Februari, dengan cepat mendapat minat dalam komuniti matematik. Orang ramai berkongsi masalah dan penyelesaian di YouTube, forum dalam talian, dan blog tidak lama selepas peperiksaan. Perbincangan pesat ini menyoroti semangat masyarakat untuk cabaran -cabaran ini. Sebagai contoh, penyelesaian yang dihasilkan oleh masalah pertama adalah betul dan jelas dijelaskan, menunjukkan output model yang berjaya. Sebaliknya, masalah kedua, yang melibatkan gabungan dan angka, mencabar model, yang membawa kepada penyelesaian yang salah.

14. AIME 2025

Peperiksaan Matematik Undangan Amerika (AIME) adalah pertandingan matematik yang berprestij dan peringkat kedua dalam memilih pasukan AS untuk Olimpik Matematik Antarabangsa. Kebanyakan peserta adalah pelajar sekolah menengah, tetapi beberapa pelajar sekolah menengah yang berbakat layak setiap tahun. Persatuan Matematik Amerika menjalankan peperiksaan ini.

Komuniti matematik dengan cepat mengambil minat dalam AIME baru -baru ini pada 6 Februari, berkongsi dan membincangkan masalah dan penyelesaian di seluruh YouTube, forum, dan blog tidak lama selepas peperiksaan. Analisis pesat ini mencerminkan semangat masyarakat untuk pertandingan yang mencabar ini.

14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025

Imej ini menandakan masalah dan penyelesaian contoh dari kertas AIME 2025. Penanda aras ini memberi tumpuan kepada keupayaan penalaran matematik LLM.

Kesimpulan

Pemaju membuat dan melatih model baru hampir setiap hari pada dataset yang besar, melengkapkan mereka dengan pelbagai keupayaan. Penanda aras LLM memainkan peranan penting dalam membandingkan model -model ini dengan menjawab soalan -soalan penting, seperti model mana yang terbaik untuk menulis kod, yang mana satu cemerlang dalam penalaran, dan yang mengendalikan tugas NLP paling berkesan. Oleh itu, menilai model pada tanda aras ini menjadi langkah wajib. Semasa kami maju ke arah AGI, penyelidik juga mewujudkan tanda aras baru untuk bersaing dengan kemajuan.

Atas ialah kandungan terperinci 14 tanda aras LLM yang popular untuk mengetahui pada tahun 2025. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!