Memandangkan model bahasa berskala besar Cina telah menunjukkan prestasi kukuh dalam pemahaman bahasa semula jadi dan penjanaan bahasa semula jadi, set data penanda aras penilaian Cina sedia ada untuk tugas pemprosesan bahasa semula jadi tertentu tidak lagi mencukupi untuk menilai model Cina berskala besar Menilai dengan berkesan. Penanda aras penilaian tradisional Cina tertumpu terutamanya pada keupayaan model untuk memahami akal yang mudah (seperti perlu membawa payung apabila keluar pada hari hujan) dan semantik permukaan (seperti sama ada laporan permainan bola keranjang adalah berita sukan atau teknologi), manakala mengabaikan perlombongan dan penggunaan pengetahuan manusia yang kompleks. Pada masa ini, terdapat kekurangan set data untuk penilaian pengetahuan kompleks model Cina yang besar, terutamanya apabila ia berkaitan dengan pengetahuan profesional di peringkat yang berbeza dan dalam bidang yang berbeza di bawah sistem pendidikan negara kita.
Untuk merapatkan jurang ini, Makmal Pemprosesan Bahasa Semulajadi Universiti Tianjin dan Makmal Huawei Noah’s Ark bersama-sama mengeluarkan M3KE (Tanda Aras Penilaian Pengetahuan Berbilang Mata Pelajaran Berbilang Tahap Besar untuk Model Bahasa Besar Cina ) set data penanda aras, yang menguji keupayaan model besar Cina untuk menguasai pengetahuan pelbagai peringkat dan pelbagai disiplin dalam bentuk sampel sifar dan beberapa sampel.
Pengenalan Set Data
M3KE mengumpul 20,477 soalan ujian piawai kehidupan sebenar (termasuk 4 jawapan calon ), meliputi 71 tugas, termasuk sekolah rendah, sekolah menengah rendah, sekolah menengah, universiti, soalan peperiksaan kemasukan siswazah, melibatkan kemanusiaan, sejarah, politik, undang-undang, pendidikan, psikologi, sains, teknologi kejuruteraan, seni dan disiplin lain, pengedarannya adalah seperti yang ditunjukkan dalam Rajah 1 yang ditunjukkan.
Para penyelidik membina set data M3KE berdasarkan dua kriteria :
1, selaras dengan sistem pendidikan Cina, meliputi pelbagai peringkat pendidikan
Para penyelidik meniru pendidikan pengalaman pelajar Cina, Iaitu, pendidikan rendah, sekolah menengah rendah, sekolah menengah, universiti dan peringkat pendidikan utama lain, bertujuan untuk menilai prestasi model besar Cina pada peringkat pendidikan yang berbeza. Oleh kerana mata pengetahuan yang perlu dikuasai pada setiap peringkat pendidikan adalah berbeza (contohnya, dalam mata pelajaran Bahasa Cina, terdapat perbezaan yang jelas dalam pengetahuan atau mata ujian antara sekolah rendah dan sekolah rendah), oleh itu, M3KE akan memasukkan perkara yang sama. mata pelajaran pada peringkat pendidikan yang berbeza. Untuk meningkatkan liputan mata pengetahuan subjek dalam set data, para penyelidik memilih soalan peperiksaan bersatu dalam peperiksaan kemasukan China, termasuk soalan sebenar dari sekolah rendah hingga sekolah menengah rendah, peperiksaan kemasukan sekolah menengah, peperiksaan kemasukan kolej, peperiksaan kemasukan siswazah. dan peperiksaan perkhidmatan awam Cina.
2, meliputi bidang pelbagai disiplin
Untuk menambah baik liputan subjek set data, penyelidik berasaskan kemanusiaan dan seni Ia dibina kepada tiga kategori utama: sastera, sains, sejarah, politik, undang-undang, pendidikan, psikologi, sains, teknologi kejuruteraan, seni dan disiplin lain. Untuk mengembangkan lagi kekayaan set data, para penyelidik menambah tugas seperti perubatan tradisional Cina, agama, dan peperiksaan gred komputer.
Statistik Set Data
Jadual 3 menunjukkan statistik keseluruhan M3KE. Bilangan tugasan dalam empat kategori mata pelajaran di atas masing-masing ialah 12, 21, 31 dan 7, manakala bilangan soalan dalam empat kategori mata pelajaran masing-masing ialah 3,612, 6,222, 8,162 dan 2,126. Bilangan maksimum soalan yang disertakan dalam tugasan ialah 425, dan bilangan minimum ialah 100. Soalan dalam sains sosial dan sains semula jadi biasanya lebih panjang daripada soalan dalam seni dan kemanusiaan dan mata pelajaran lain, manakala pilihan jawapannya lebih pendek.
Kemanusiaan dan Kesenian
Mata pelajaran kemanusiaan dan seni merangkumi mata pelajaran dalam banyak bidang seperti bahasa Cina, seni dan sejarah. Mata pelajaran ini memberi tumpuan kepada analisis dan tafsiran artifak sastera dan budaya Mengambil contoh bahasa Cina sekolah rendah, soalan ujian direka untuk menilai penggunaan bahasa dan kebolehan penghayatan sastera pelajar berumur 7 hingga 13 tahun, seperti kebolehan menggunakan sinonim. dan antonim. Mata pelajaran sejarah merangkumi sejarah Cina dan dunia dari zaman dahulu hingga zaman moden. Selain kemanusiaan, M3KE juga merangkumi subjek seni, seperti tarian, seni, muzik, filem, dan lain-lain. Seni merupakan bahagian penting dalam budaya manusia, dan sama pentingnya untuk menilai prestasi model besar Cina dalam bidang seni.
Contoh tugas seni:
Yang manakah antara pernyataan berikut tentang lukisan gua Lascaux adalah salah?
A. Mural ini ditemui di Perancis
B. Terdapat lebih daripada 100 imej haiwan ditemui
C. Masa penemuan ialah 1940
D Warna mural terutamanya hitam
Misi Sejarah Moden Dunia Contoh:
Ia mengambil masa lebih daripada dua abad dari Revolusi Belanda hingga Revolusi Perancis, dan hanya setengah abad selepas itu, kapitalisme pada mulanya membentuk sistem dunia Ini terutamanya kerana?
A. Pengaruh Revolusi Perancis tersebar luas
B Sistem Vienna memperhebatkan konflik sosial di pelbagai negara
C. Revolusi Perindustrian dengan pantas meningkatkan kuasa kapitalisme
D >
Sains KemasyarakatanSains sosial memfokuskan pada penerapan kemanusiaan, seperti undang-undang, politik, pendidikan dan psikologi. Kursus politik dijalankan melalui pelbagai peringkat pendidikan termasuk sekolah menengah rendah, sekolah menengah, universiti dan pendidikan pasca siswazah, manakala mata pelajaran lain diedarkan terutamanya dalam kursus peringkat universiti. Sains sosial juga merangkumi tugas-tugas ekonomi dan pengurusan Soalan ujian untuk tugasan ini dipilih daripada Peperiksaan Bersama Ekonomi dan Peperiksaan Bersama Pengurusan dalam Peperiksaan Masuk Siswazah Cina Pengetahuan itu melibatkan mikroekonomi, makroekonomi, pengurusan dan logik.
Contoh tugas undang-undang jenayah:
A nak bunuh B, jadi dia masukkan racun ke dalam makanan B. Selepas B ambil, A menyesal dan cepat-cepat menerangkan keadaan dan menghantar B ke hospital. Semasa pemeriksaan, pihak hospital mendapati "racun" yang diberikan oleh A tidak beracun sama sekali, dan B selamat dan sihat. Tingkah laku A kepunyaan?
A. Bukan jenayah
B. Cubaan jenayah
C
D. Jenayah selesai
Contoh tugasan Prinsip Pendidikan:
Yang paling asas dalam penyelidikan pendidikan , Apakah kaedah penyelidikan yang paling biasa digunakan?
A. Penyelidikan pemerhatian pendidikan
B Penyelidikan
D.Penyelidikan Eksperimen Pendidikan
Sains Alam
Sains semula jadi merangkumi kejuruteraan, sains, perubatan dan subjek asas seperti matematik, fizik, kimia dan biologi. Mata pelajaran ini selalunya memerlukan kemahiran pengiraan, analisis dan penaakulan logik yang kompleks. Dalam sistem pendidikan negara kita, subjek yang sama melibatkan pelbagai jenis pengetahuan pada peringkat yang berbeza. Sebagai contoh, matematik sekolah rendah memberi tumpuan kepada pembelajaran operasi asas aritmetik, manakala matematik sekolah menengah merangkumi konsep matematik yang lebih maju seperti jujukan, terbitan, geometri, dll. Contoh tugas fisiologi haiwan:
Menggunakan prokain untuk membius gentian saraf yang mempengaruhi ciri pengujaan pengaliran gentian saraf yang manakah?
A. Keutuhan fisiologi
B.
C D. Agak bebas keletihan
Contoh tugas sistem pengendalian:
Format direktori mempunyai impak yang besar terhadap kecekapan pengambilan fail Besar , apakah borang direktori paling maju di bawah?
A. Direktori satu peringkat
B. Direktori direktori tiga peringkat
Ddirektori pokok
Lain-lain
Lain-lain Jenis tugas termasuk agama, peperiksaan perkhidmatan awam Cina, peperiksaan gred komputer, dsb. Tugas-tugas ini memerlukan pengetahuan yang tidak terhad kepada satu peringkat atau disiplin yang dinyatakan di atas. Sebagai contoh, peperiksaan perkhidmatan awam Cina melibatkan pengetahuan seperti pengetahuan am, kemanusiaan, dan logik, jadi penyelidik menganggap tugas-tugas ini sebagai penilaian pengetahuan komprehensif model besar Cina. Contoh Tugasan Peperiksaan Perkhidmatan Awam Cina:
Beberapa kajian lepas menunjukkan bahawa makan coklat meningkatkan kemungkinan penyakit jantung pada mereka yang memakannya. . Dan kajian baru yang lebih dipercayai menyimpulkan bahawa penggunaan coklat tidak dikaitkan dengan kadar penyakit jantung. Dianggarkan selepas hasil kajian ini dikeluarkan, penggunaan coklat akan meningkat dengan ketara. Inferens di atas adalah berdasarkan yang manakah antara andaian berikut?
A. Walaupun sesetengah orang tahu bahawa makan coklat meningkatkan kemungkinan penyakit jantung, mereka tetap memakannya
B tidak pernah percaya bahawa makan coklat akan menyebabkan anda lebih mudah menghidap penyakit jantung
C Sekarang ini ramai yang makan coklat kerana tidak pernah mendengar coklat boleh menyebabkan penyakit jantung
Ginseng mempunyai kesan menambah tenaga dan menambah qi, tetapi apakah ubat yang sering digunakan sebagai pengganti penyakit melemahkan kronik?
Salvia miltiorrhiza
Codonopsis pilosula
Astragalus
Pseudostellariae
Pengenalan dan contoh M3KE dari perspektif peringkat pelbagai pendidikan
Penyelidik membahagikan set data mengikut peringkat mengikut sistem pendidikan Cina, termasuk sekolah rendah, sekolah menengah rendah, sekolah menengah, kolej dan peperiksaan kemasukan siswazah. Begitu juga, penyelidik juga memilih beberapa mata pelajaran peperiksaan di luar sistem pendidikan, seperti peperiksaan gred komputer dan peperiksaan perkhidmatan awam Cina.
Sekolah rendah
Contoh tugas bahasa Cina untuk sekolah rendah:
Perkataan berikut Yang manakah benar dalam penulisan?
A. Bunyi alam, awan yang mengalir dan air yang mengalir, berlari-lari, membelek-belek kotak dan kabinetB air, nyanyian dan tarian, menambah sentuhan penamat, idea unik
C bunyi bergema, cerdik, cemerlang, resah
D Zhongda Lu, tentera elit yang jelas dan hidup, serta kerajaan yang dikurangkan
Contoh tugasan matematik sekolah rendah:
Sesuatu produk mula-mula meningkatkan harganya sebanyak 20%, dan kemudian menurunkan harganya sebanyak 20%.
A. Diperbaiki
B. Dikurangkan
C. Tidak Berubah
D >
Sekolah menengah rendahContoh tugas bahasa Cina untuk sekolah rendah:
Yang manakah pernyataan berikut betul?
A. "Yang Paling Sakit dan Paling Bahagia" dipilih daripada "Karya Pilihan Liang Qichao".
B. " "Zou Ji menyindir Raja Qi dan menerima nasihat" dipilih daripada "Dasar Negara Berperang". "Dasar Negara Berperang" ialah kompilasi strategi dan pendapat pelobi semasa Perang Tempoh Negeri. Ia disusun menjadi tiga puluh tiga bab oleh Liu Xiang dari Dinasti Han Timur
C Perkataan juga dipanggil "ayat panjang dan pendek", dan pola ayat berbeza-beza . Ia berkembang pesat pada Dinasti Song Su Shi dan Xin Qiji adalah wakil dari Sekolah Berani, manakala Li Qingzhao adalah wakil dari Sekolah Anggun, yang merangkumi idea pengarang untuk berseronok dengan orang ramai
.Contoh tugas politik di sekolah menengah rendah:
Kelas harus dihasilkan dengan tema "Memperjuangkan semangat kedaulatan undang-undang" Xiaolan bertanggungjawab untuk menulis kandungan bahagian "Kesaksamaan Amalan" akhbar Papan Hitam. Antara bahan berikut, yang manakah sesuai untuk dipilih?
A. Terdapat tempat duduk cinta khas di dalam bas untuk "wanita tua, lemah, sakit dan hamil"
B pergi ke pangkalan pendidikan tradisional revolusioner untuk menyertai aktiviti Kajian
C. >D. Pelajar menggunakan cuti untuk membersihkan iklan kecil di jalanan
Sekolah menengah
Contoh bahasa Cina sekolah menengah tugas bahasa:
Shen Kuo dalam " "Mengxi Bi Tan" berkata: "Perubahan langit dan bumi, sejuk dan panas, angin dan hujan, banjir, kemarau, belalang, semuanya telah undang-undang." Apakah maksud falsafah ayat ini?
A Undang-undang adalah punca perubahan dalam perkara objektif
B. Undang-undang adalah objektif dan universal
C Belajar untuk melihat masalah dari perspektif perhubungan
D. >Sekolah Menengah Contoh tugas biologi:
Keupayaan persekitaran bergantung kepada keadaan persekitaran sesebuah populasi. Manakah antara pernyataan berikut yang betul?
Kapasiti alam sekitar populasi murai kelabu di dua tempat mestilah sama
Belalang migrasi Asia Timur yang tinggal di padang rumput tertentu pada tahun yang berbeza Kapasiti alam sekitar mungkin sama
Apabila saiz populasi hampir dengan kapasiti persekitaran, kadar kematian akan meningkat dan kadar kelahiran kekal tidak berubah
Kehidupan Kapasiti pegangan alam sekitar ikan mas crucian dan ikan haruan di Tasik Weishan adalah sama
Universiti
Misi Perubatan Pergigian Universiti Contoh:
Kanser mulut manakah yang menduduki tempat pertama di negara kita?
A. Kanser mukosa alveolar
B. Kanser mukosa bukal
C
D. Kanser lidah
Contoh tugasan ekonomi universiti yang komprehensif:
Item berikut Item manakah yang harus dimasukkan dalam KDNK?
Bayaran pindahan kerajaan
B. Membeli kereta terpakai
C. Pinjaman dan faedah bon yang dibayar oleh perniagaan
D menang daripada membeli tiket loteri
Lain-lain
Contoh tugas asas komputer untuk peperiksaan gred komputer:
Oleh kerana terdapat banyak data dalam lembaran kerja, tajuk baris pertama tidak selalu dapat dilihat semasa menatal Apakah yang perlu saya lakukan untuk sentiasa melihat baris tajuk?
A. Tetapkan "Tajuk Cetak"
B bekukan anak tetingkap
C baris pertama
D bekukan lajur pertama
Contoh tugas agama:
Agama boleh Apakah asas politik yang sesuai untuk masyarakat sosialis?
A. Penubuhan kuasa negara diktator demokrasi rakyat
B rakyat negara Perkara di atas adalah sebulat suara
C. Penubuhan kepimpinan dan taraf pemerintahan Parti Komunis China
D. Kemerdekaan dan gereja yang diatur sendiri
Model Penilaian
Penilaian sifar/Penilaian beberapa pukulan
Keperluan model di bawah tetapan sampel sifar Jawab soalan secara langsung; di bawah keadaan tetapan sampel yang sedikit, model akan diberikan beberapa contoh tugas yang sama terlebih dahulu untuk membimbing model melaksanakan pembelajaran dalam konteks. Dalam M3KE, semua soalan diberi markah menggunakan ketepatan.
Hasil penilaian di bawah kategori subjek yang berbeza
Hasil penilaian pada peringkat pendidikan yang berbeza
Analisis hasil eksperimen
1. Dalam penilaian sampel sifar (Jadual 4&6), ketepatan semua model bahasa pra-latihan (tanpa penalaan halus) dengan parameter kurang daripada 10B adalah lebih rendah daripada keputusan rawak (25%), dan tetapan dengan beberapa sampel (Jadual 5&7) membantu meningkatkan prestasi model. Walau bagaimanapun, keputusan GLM130B dalam penilaian sampel sifar adalah lebih baik daripada keputusan penilaian beberapa sampel Sebabnya mungkin GLM130B telah menggunakan sebahagian daripada data arahan dalam peringkat pra-latihan, supaya ia sudah mempunyai sifar- yang lebih baik. sampel keupayaan pembelajaran.
2, kebanyakan model besar Cina yang diperhalusi hanya mencapai tahap keputusan rawak (25%), walaupun dalam ujian peringkat sekolah rendah (Jadual 6&7). Ini menunjukkan bahawa pengetahuan di peringkat pendidikan rendah masih merupakan salah satu kelemahan model besar Cina semasa.
3. Dalam penilaian sampel sifar, BELLE-7B-2M mencapai hasil terbaik dalam kalangan model besar China, tetapi masih mempunyai jurang 14.8% dengan GPT-3.5-turbo. Di samping itu, bilangan arahan penalaan halus yang diselia juga merupakan faktor penting BELLE-7B-2M yang diperhalusi dengan dua juta arahan adalah lebih baik daripada BELLE-7B-0.2M yang ditala dengan dua ratus ribu arahan (Jadual 4). .
4 Penetapan beberapa sampel tidak membawa peningkatan prestasi dalam kebanyakan kes (Jadual 5&7 vs Jadual 4&6), terutamanya selepas arahan penalaan halus atau pembelajaran pengukuhan berdasarkan maklum balas manusia. model bahasa. Ini menunjukkan bahawa penalaan halus arahan model bahasa pra-latihan boleh meningkatkan keupayaan pembelajaran sifar pukulan model bahasa dengan ketara, yang tidak memerlukan contoh tambahan untuk memahami maksud arahan atau soalan.
Penyelidik mencadangkan penanda aras baharu, M3KE, untuk menilai penguasaan pengetahuan model besar Cina dalam pelbagai disiplin dan pada peringkat pendidikan yang berbeza. M3KE mengandungi 71 tugasan dan 20,447 soalan. Para penyelidik mendapati bahawa semua model Cina sumber terbuka yang besar dinilai jauh ketinggalan di belakang GPT-3.5. Para penyelidik berharap bahawa M3KE akan membantu menemui kelemahan pengetahuan dalam model besar Cina dan menggalakkan pembangunan selanjutnya model besar Cina.
Semua tugas dalam M3KE
Atas ialah kandungan terperinci Pindahkan soalan peperiksaan kemasukan ke dalam set data model besar Cina, dengan 20,477 soalan dan 4 jawapan calon.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!