Kemunculan ChatGPT telah menyedarkan masyarakat Cina tentang jurang dengan peringkat terkemuka antarabangsa. Baru-baru ini, pembangunan model besar Cina telah giat dijalankan, tetapi terdapat sedikit tanda aras penilaian Cina.
Dalam proses pembangunan siri OpenAI GPT/siri Google PaLM/siri DeepMind Chinchilla/siri Anthropic Claude, tiga set data MMLU/MATH/BBH memainkan peranan penting, kerana ia secara relatifnya meliputi keupayaan setiap dimensi model. Yang paling patut diberi perhatian ialah set data MMLU, yang mempertimbangkan keupayaan pengetahuan menyeluruh bagi 57 disiplin, daripada kemanusiaan kepada sains sosial kepada sains dan kejuruteraan. Model Gopher dan Chinchilla DeepMind hanya melihat pada skor MMLU, jadi kami ingin membina senarai penanda aras berbilang disiplin bahasa Cina yang cukup berbeza untuk membantu pembangun membangunkan model Cina yang besar.
Kami menghabiskan masa kira-kira tiga bulan untuk membina sistem yang meliputi empat hala tuju utama: kemanusiaan, sains sosial, sains dan kejuruteraan serta jurusan lain serta 52 mata pelajaran (kalkulus, penjanaan garis... ) , sejumlah 13948 soalan pengetahuan Cina dan ujian penaakulan ditetapkan dari sekolah menengah hingga peperiksaan pasca siswazah dan vokasional universiti Kami memanggilnya C-Eval untuk membantu masyarakat Cina membangunkan model besar.
Artikel ini adalah untuk merekodkan proses kami membina C-Eval dan berkongsi dengan pembangun pemikiran dan keutamaan R&D kami dari perspektif kami. Matlamat kami yang paling penting ialah membantu pembangunan model, bukan untuk menyenaraikan . Mengejar kedudukan tinggi dalam senarai secara membabi buta akan membawa banyak akibat buruk, tetapi jika C-Eval boleh digunakan secara saintifik untuk membantu lelaran model, C-Eval boleh dimaksimumkan. Oleh itu, kami mengesyorkan merawat set data dan senarai C-Eval dari perspektif pembangunan model.
Pertama sekali, tukar model menjadi robot perbualan Perkara tidak sukar. Sudah ada robot perbualan seperti Alpaca, Vicuna, dan RWKV di dunia sumber terbuka Senang untuk berbual dengan mereka secara santai Tetapi jika anda benar-benar mahu model ini menjadi produktif, sembang santai tidak mencukupi. Oleh itu, masalah pertama dalam membina tanda aras penilaian adalah untuk mencari tahap pembezaan dan memikirkan jenis keupayaan yang menjadi penunjuk teras yang membezakan kekuatan model. Kami menganggap dua teras Pengetahuan dan Penaakulan.
1.1 - Pengetahuan
Mengapa keupayaan intelek adalah keupayaan teras? Terdapat hujah berikut:
Oleh itu, keupayaan berasaskan pengetahuan ialah ukuran yang baik bagi potensi model asas.
1.2 - Penaakulan
Keupayaan penaakulan ialah keupayaan untuk meningkatkan lagi berdasarkan pengetahuan Ia mewakili sama ada model itu boleh dilakukan susah, Perkara yang sangat rumit. Untuk model menjadi kukuh, pertama sekali ia memerlukan pengetahuan yang luas, dan kemudian membuat inferens berdasarkan pengetahuan.
Hujah penting untuk penaakulan ialah:
Di sini kita juga perlu menjelaskan hubungan antara penaakulan dan pengetahuan:
Dengan penerangan dan penaakulan di atas, kami memutuskan untuk membina set data bermula daripada berasaskan pengetahuan tugas Menguji keupayaan pengetahuan model adalah bersamaan dengan menanda aras set data MMLU pada masa yang sama, kami juga berharap untuk membawa beberapa kandungan berkaitan penaakulan untuk mengukur lagi keupayaan tertib tinggi model, jadi kami memasukkan subjek yang memerlukan; penaakulan kukuh dalam C-Eval (Micro Integral, algebra linear, kebarangkalian...) diekstrak khas dan dinamakan C-Eval Hard subset, yang digunakan untuk mengukur keupayaan penaakulan model, yang bersamaan dengan menanda aras set data MATH .
Pada C-Eval Hard, model pertama perlu mempunyai pengetahuan berkaitan matematik, dan kemudian perlu mempunyai idea langkah demi langkah untuk menyelesaikan masalah, dan kemudian perlu memanggil Wolfram Alpha/Mathematica/Matlab semasa proses penyelesaian masalah Keupayaan untuk melakukan pengiraan berangka dan simbolik/pembezaan dan kamiran, dan menyatakan proses pengiraan dan keputusan dalam format Lateks. Bahagian soalan ini sangat sukar.
C-Eval berharap untuk menanda aras MMLU secara keseluruhan (set data ini digunakan untuk pembangunan GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla) , dengan harapan untuk menanda aras MATH pada bahagian Keras (set data ini digunakan dalam pembangunan GPT-4, PaLM-2, Minerva dan Galactica).
Perlu dinyatakan di sini bahawa matlamat kami yang paling penting adalah untuk membantu pembangunan model, bukan untuk menyenaraikan . Mengejar kedudukan tinggi dalam senarai secara membabi buta akan membawa banyak akibat buruk, yang akan kami jelaskan sebentar lagi tetapi jika anda boleh menggunakan C-Eval secara saintifik untuk membantu lelaran model, anda akan mendapat manfaat yang besar. Kami mengesyorkan merawat set data dan senarai C-Eval dari perspektif pembangunan model.
2.1 - Matlamatnya adalah untuk membantu pembangunan model
Dalam penyelidikan sebenar dan proses pembangunan, Banyak kali kita perlu mengetahui kualiti penyelesaian tertentu atau kualiti model tertentu Pada masa ini kita memerlukan set data untuk membantu kita menguji. Berikut ialah dua adegan klasik:
2.2 - Kedudukan bukan matlamat
Kita perlu tekankan mengapa kita tidak sepatutnya mengikut kedudukan ranking Sebagai matlamat:
Oleh itu, jika C-Eval digunakan sebagai alat untuk membantu pembangunan, peranan positifnya boleh dimaksimumkan tetapi jika ia digunakan sebagai ranking senarai, Terdapat a risiko besar penyalahgunaan C-Eval, dan terdapat kebarangkalian tinggi bahawa tidak akan ada hasil yang baik pada akhirnya.
Jadi sekali lagi, kami mengesyorkan agar set data C-Eval dan senaraikan daripada perspektif pembangunan model.
2.3 - Lelaran berterusan daripada maklum balas pembangun
Kerana kami mahu model itu cekap seperti pembangun Sokongan yang mungkin, jadi kami memilih untuk berkomunikasi secara terus dengan pembangun dan terus belajar dan mengulangi maklum balas pembangun - ini juga membolehkan kami belajar banyak perkara seperti model besar ialah Pembelajaran Pengukuhan daripada Maklum Balas Manusia, pasukan pembangunan C-Eval; ialah Teruskan Belajar daripada Maklum Balas Pembangun
Khususnya, semasa proses penyelidikan dan pembangunan, kami menjemput syarikat seperti ByteDance, SenseTime dan Shenyan untuk menyambungkan ujian C-Eval Go dalam mereka. aliran kerja sendiri, dan kemudian berkomunikasi antara satu sama lain tentang perkara yang mencabar dalam proses ujian. Proses ini membolehkan kami mempelajari banyak perkara yang tidak kami jangkakan pada mulanya:
Isu di atas ditemui melalui maklum balas daripada pembangun semasa interaksi kami dengan mereka. Masalah ini telah diselesaikan dalam dokumentasi dan kod github versi awam semasa C-Eval.
Proses di atas juga membuktikan bahawa merawat set dan senarai data C-Eval dari perspektif pembangunan model boleh membantu semua orang membangunkan model Cina yang besar.
Kami mengalu-alukan semua pembangun untuk menyerahkan isu dan menarik permintaan ke GitHub kami untuk memberitahu kami cara untuk membantu anda dengan lebih baik:)
Dalam bab ini kita membincangkan kaedah yang kami gunakan untuk memastikan kualiti set data semasa proses pengeluaran. Rujukan kami yang paling penting di sini ialah dua set data MMLU dan MATH Oleh kerana empat pasukan model besar yang paling penting, OpenAI, Google, DeepMind dan Anthropic, semuanya menumpukan pada MMLU dan MATH, jadi kami berharap dapat menyumbang kepada kedua-dua ini. set data. Selepas penyelidikan awal kami dan beberapa siri perbincangan, kami membuat dua keputusan penting, satu adalah untuk membuat tangan set data dari awal dan satu lagi adalah kepada Perkara UtamaHalang soalan daripada dirangkak ke dalam latihan yang ditetapkan oleh perangkak.
3.1 - Buatan Tangan
Inspirasi penting daripada proses pembangunan GPT ialah dalam bidang kecerdasan buatan , terdapat Kepintaran yang sama seperti kecerdasan buatan Ini juga dicerminkan dengan baik dalam proses penubuhan C-Eval Secara khusus, daripada sumber soalan:
Kemudian terdapat soalan pemprosesan:
Kesukaran seterusnya ialah cara membina gesaan rantaian pemikiran rasmi Perkara utama di sini ialah kita perlukan untuk memastikan bahawa CoT kami adalah betul. Pendekatan awal kami adalah untuk membiarkan GPT-4 menjana Rantaian pemikiran untuk setiap contoh dalam konteks, tetapi kemudian kami mendapati bahawa ini tidak boleh dilaksanakan Pertama, yang dijana adalah terlalu panjang (lebih daripada 2048 token). panjang beberapa model mungkin tidak disokong; yang lain ialah kadar ralat terlalu tinggi. Adalah lebih baik untuk menyemak setiap satu sendiri
Jadi pelajar kami menghasilkan CoT berdasarkan GPT-. 4 , saya benar-benar melakukan soalan gesaan seperti kalkulus, penjanaan baris, kebarangkalian dan diskret (5 soalan untuk setiap subjek sebagai contoh dalam konteks:Semua orang juga boleh merasakan mengapa soalan sukar, gesaan rantaian pemikiran adalah sangat panjang, dan mengapa model itu perlu dapat melakukan pengiraan simbolik dan berangka bagi kalkulus
3.2 - Mengelakkan soalan kami daripada dicampur ke dalam set latihan
Demi penilaian saintifik, kami telah mempertimbangkan satu siri mekanisme untuk menghalang soalan kami daripada dicampur ke dalam set latihan
Sudah tentu, di sebalik usaha kita, ia tidak dapat tidak berlaku bahawa bank soalan. boleh dicari pada topik halaman web tertentu, tetapi kami percaya situasi ini sepatutnya jarang berlaku. Dan berdasarkan keputusan yang kami ada, soalan C-Eval masih cukup dibezakan, terutamanya bahagian Sukar.
Seterusnya kami menganalisis kaedah yang boleh digunakan untuk meningkatkan kedudukan model. Kami mula-mula menyenaraikan pintasan untuk anda, termasuk menggunakan LLaMA, yang tidak tersedia secara komersial, dan menggunakan data yang dijana oleh GPT, serta kelemahan kaedah ini, kemudian kami membincangkan apakah laluan yang sukar tetapi betul .
4.1 - Apakah jalan pintas yang boleh diambil?
Berikut ialah pintasan yang boleh anda ambil:
4.2 - Jalan yang sukar tetapi betul
Cara terbaik adalah menjadi diri sendiri bergantung dan berdikari, dibangunkan dari awal. Perkara ini sukar, mengambil masa, dan memerlukan kesabaran, tetapi ia adalah cara yang betul.
Secara khusus, kita perlu memberi tumpuan kepada kertas kerja daripada institusi berikut
Semasa proses pembangunan, adalah disyorkan untuk memberi perhatian kepada kandungan berikut:
4.3 - Jangan tergesa-gesa Model besar adalah perkara yang memakan masa ujian komprehensif keupayaan industri kecerdasan buatan: Oleh itu, tidak perlu tergesa-gesa ke ranking, tidak perlu melihat keputusan esok, tidak perlu online lusa - ambil masa, langkah demi langkah. Banyak kali, jalan yang sukar tetapi betul sebenarnya adalah jalan terpantas. Dalam artikel ini, kami memperkenalkan matlamat pembangunan, proses dan pertimbangan utama C-Eval. Matlamat kami adalah untuk membantu pembangun membangunkan model besar Cina dengan lebih baik dan mempromosikan penggunaan saintifik C-Eval dalam akademik dan industri untuk membantu lelaran model. Kami tidak tergesa-gesa untuk melihat hasilnya, kerana model besar itu sendiri adalah perkara yang sangat sukar. Kami tahu jalan pintas yang boleh kami ambil, tetapi kami juga tahu bahawa jalan yang sukar tetapi betul sebenarnya adalah jalan terpantas. Kami berharap kerja ini dapat mempromosikan ekosistem R&D model besar Cina dan membolehkan orang ramai merasai kemudahan yang dibawa oleh teknologi ini lebih awal. Lampiran 1: Subjek termasuk dalam C-Eval
5 - Kesimpulan
Lampiran 2: Sumbangan ahli projek
Nota: Dalam teks URL yang sepadan bagi kertas cadangan boleh didapati pada halaman asal.
Atas ialah kandungan terperinci 13948 soalan, meliputi 52 mata pelajaran seperti kalkulus dan penjanaan baris, telah diserahkan kepada Universiti Tsinghua untuk membuat set ujian untuk model besar Cina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!