Xi Xiaoyao Technology Talk Original
Pengarang |. Menjual Mengjiang Sejak kebelakangan ini, komuniti akaun awam kami telah memajukan tangkapan skrin yang dipanggil ulasan SuperClue. iFlytek malah mempromosikannya di akaun rasminya:
Memandangkan model iFlytek Spark baru dikeluarkan, saya tidak memainkannya sangat yang paling berkuasa buatan China Penulis tidak berani membuat sebarang kesimpulan.
Tetapi dalam tangkapan skrin penilaian ini, Baidu Wenxinyiyan, model domestik paling popular pada masa ini, tidak dapat mengalahkan model sumber terbuka akademik kecil ChatGLM-6B. Ini bukan sahaja tidak konsisten dengan pengalaman pengarang sendiri, tetapi dalam komuniti teknologi NLP profesional kami, semua orang juga menyatakan kekeliruan:
Keluar kerana ingin tahu, penulis pergi ke github senarai superclue ini untuk melihat bagaimana kesimpulan penilaian ini dicapai: https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2
Pertama sekali , penulis mendapati terdapat beberapa isu di bawah repo ini:
Nampaknya perasaan keterlaluan ini bukan sahaja Penulis memilikinya , dan pastinya, mata orang ramai masih tajam. . .
Pengarang lebih lanjut melihat kaedah penilaian senarai ini:
Lelaki yang baik, ternyata ujian model besar generatif yang dipanggil semua tentang membiarkan Model membuat soalan aneka pilihan. . .
Jelas sekali, kaedah penilaian aneka pilihan ini ditujukan kepada model AI yang diskriminatif pada era BERT Pada masa itu, model AI umumnya tidak mempunyai keupayaan untuk menjana, tetapi hanya mempunyai keupayaan untuk mendiskriminasi (seperti dapat menentukan kepunyaan sekeping teks) Kategori, antara pilihan yang manakah merupakan jawapan yang betul kepada soalan, menilai sama ada semantik dua keping teks adalah konsisten, dsb.).
Penilaian model generatif agak berbeza daripada penilaian model diskriminatif.
Sebagai contoh, untuk tugas penjanaan khas seperti terjemahan mesin, penunjuk penilaian seperti BLEU biasanya digunakan untuk mengesan "liputan perbendaharaan kata dan frasa" antara respons yang dijana oleh model dan respons rujukan. Walau bagaimanapun, terdapat sangat sedikit tugas generatif dengan respons rujukan seperti terjemahan mesin, dan sebahagian besar penilaian generatif memerlukan penilaian manual.
Contohnya, tugas penjanaan seperti penjanaan dialog gaya sembang, pemindahan gaya teks, penjanaan bab, penjanaan tajuk, ringkasan teks, dll. memerlukan setiap model dinilai untuk menjana respons secara bebas, dan kemudian membandingkan secara manual respons yang dihasilkan oleh model yang berbeza ini, atau pertimbangan manusia sama ada keperluan tugas dipenuhi.
Pusingan pertandingan AI semasa ialah persaingan untuk keupayaan penjanaan model, bukan persaingan untuk keupayaan diskriminasi model. Perkara yang paling berkuasa untuk dinilai ialah reputasi pengguna sebenar, bukan senarai akademik yang dingin lagi. Lebih-lebih lagi, ia adalah senarai yang tidak menguji keupayaan penjanaan model sama sekali.
Mengimbas kembali beberapa tahun yang lalu -
Pada tahun 2019, apabila OpenAI mengeluarkan GPT-2, kami telah mengumpulkan helah untuk meningkatkan kedudukan
Pada tahun 2020, OpenAI dikeluarkan Semasa GPT-3, kami sedang mengumpulkan helah untuk menyegarkan senarai;
Pada 2021-2022, apabila penalaan arahan dan RLHF berfungsi seperti FLAN, T0, InstructGPT dan sebagainya, kami masih mempunyai banyak pasukan berkeras untuk menimbun helah untuk menyegarkan senarai...
Saya harap kami tidak akan mengulangi kesilapan yang sama dalam gelombang perlumbaan senjata model generatif ini.
Jadi bagaimanakah model AI generatif harus diuji?
Maaf, saya katakan sebelum ini bahawa jika anda ingin melakukan ujian yang tidak berat sebelah, ia sangat, sangat sukar, malah lebih sukar daripada membangunkan model generatif sendiri. Apakah kesukaran? Beberapa soalan khusus:
Ini hanyalah beberapa masalah asas yang perlu diselesaikan Dalam proses reka bentuk penanda aras sebenar, kita perlu menghadapi sejumlah besar masalah yang jauh lebih sukar daripada masalah di atas.
Oleh itu, sebagai seorang pengamal AI, penulis menyeru semua orang untuk melihat kedudukan pelbagai model AI secara rasional. Malah tidak ada tanda aras ujian yang tidak berat sebelah, jadi apa gunanya kedudukan ini?
Seperti pepatah yang sama, pengguna sebenar mempunyai keputusan akhir sama ada model generatif itu bagus atau tidak.
Tidak kira betapa tinggi kedudukan model dalam senarai, jika model itu tidak dapat menyelesaikan masalah yang anda ambil berat, model itu akan menjadi model biasa kepada anda. Dalam erti kata lain, jika model yang berada di kedudukan bawah sangat kuat dalam senario yang anda bimbangkan, maka model itu adalah model harta karun untuk anda.
Di sini, penulis mendedahkan set ujian kes keras (kes sukar) yang diperkaya dan ditulis oleh pasukan kami. Set ujian ini memfokuskan kepada keupayaan model untuk menyelesaikan masalah/arahan yang sukar.
Set ujian yang sukar ini memfokuskan pada pemahaman bahasa model, pemahaman dan mengikut arahan yang kompleks, penjanaan teks, penjanaan kandungan kompleks, pelbagai pusingan dialog, pengesanan percanggahan, penaakulan akal, penaakulan matematik, penaakulan kontrafaktual dan bahaya Pengenalan maklumat, kesedaran undang-undang dan etika, pengetahuan kesusasteraan Cina, keupayaan merentas bahasa dan keupayaan pengekodan, dsb.
Saya menekankan sekali lagi bahawa ini adalah set kes yang dibuat oleh pasukan pengarang untuk menguji keupayaan model generatif untuk menyelesaikan contoh yang sukar jauh daripada mewakili kesimpulan ujian yang tidak berat sebelah Jika anda mahukan kesimpulan ujian yang tidak berat sebelah, sila jawab soalan penilaian yang dinyatakan di atas dahulu, dan kemudian tentukan tanda aras ujian yang berwibawa.
Rakan-rakan yang ingin menilai dan mengesahkan sendiri boleh membalas kata laluan [AI Evaluation] di latar belakang akaun awam ini "Xi Xiaoyao Technology" untuk memuat turun fail ujian
Berikut ialah keputusan penilaian bagi tiga model paling kontroversi dalam senarai superclue: iFlytek Spark, Wenxin Yiyan dan ChatGPT:
Kadar penyelesaian Kes Sukar:
Ini untuk menunjukkan bukti Isn' t Feixinghuo sebaik Wen Xinyiyan? Jika anda membaca artikel sebelum ini dengan teliti, anda akan faham apa yang penulis ingin katakan.
Sesungguhnya, walaupun model Spark tidak sehebat Wen Xinyiyan dalam set kes sukar dalam pasukan kami, ini tidak bermakna yang satu pasti lebih baik daripada yang lain secara agregat. Ia hanya menunjukkan bahawa dalam kes sukar dalam pasukan kami Pada set ujian, Wenxinyiyan melakukan yang terbaik, malah menyelesaikan dua kes yang lebih sukar daripada ChatGPT.
Untuk soalan mudah, sebenarnya tidak banyak perbezaan antara model domestik dan ChatGPT. Untuk masalah yang sukar, setiap model mempunyai kekuatannya sendiri. Berdasarkan pengalaman komprehensif pasukan pengarang, Wen Xinyiyan sudah cukup untuk mengalahkan model sumber terbuka seperti ChatGLM-6B untuk ujian akademik Sesetengah keupayaan adalah lebih rendah daripada ChatGPT, dan beberapa keupayaan mengatasi ChatGPT.
Hal yang sama berlaku untuk model domestik yang dikeluarkan oleh pengeluar utama lain seperti Alibaba Tongyi Qianwen dan iFlytek Spark.
Seperti yang saya katakan sebelum ini, tiada tanda aras ujian yang tidak berat sebelah, jadi apa gunanya kedudukan model?
Daripada mempertikaikan tentang pelbagai ranking berat sebelah, lebih baik buat set ujian yang anda ambil berat seperti yang dilakukan oleh pasukan saya.
Model yang boleh menyelesaikan masalah anda ialah model yang bagus.
Atas ialah kandungan terperinci Baidu Wenxinyiyan menduduki tempat terakhir dalam kalangan model domestik? Saya keliru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!