Pada Mac 2024, dalam "Laporan Penilaian Keupayaan Komprehensif Model Besar SuperBench" yang dikeluarkan baru-baru ini oleh Pusat Penyelidikan Model Asas Universiti Tsinghua, laporan itu menilai secara komprehensif 14 model berpengaruh di dalam dan luar negara.
Dalam laporan ini, prestasi cemerlang Wenian 4.0 telah menarik perhatian meluas. Prestasi keseluruhannya hampir dengan model antarabangsa teratas, dan ia secara beransur-ansur mengecilkan jurang dengan model terkemuka dunia, menunjukkan bahawa ia telah menjadi model domestik terkemuka.
Dalam penilaian keupayaan penjajaran manusia, Teks 4.0 menunjukkan kekuatan yang cemerlang dan menduduki tempat pertama di negara ini tanpa sebarang keraguan. Pada masa yang sama, dalam penilaian penaakulan bahasa Cina dan keupayaan bahasa Cina, Teks 4.0 juga adalah yang terbaik Berbanding dengan model lain, kelebihannya sangat jelas. Terutamanya dalam penilaian pemahaman bahasa Cina, skor Teks 4.0 adalah 0.41 mata lebih tinggi daripada GLM-4 tempat kedua, menunjukkan kemahiran mendalamnya dalam pemprosesan bahasa Cina.
Dalam penilaian keupayaan matematik pemahaman semantik, model Text 4.0 dan Claude-3 terikat untuk tempat pertama di dunia, manakala model siri GPT-4 yang terkenal mengikuti rapat, menduduki tempat keempat dan kelima. Markah model lain kebanyakannya tertumpu sekitar 55 mata, dan terdapat jurang yang ketara antara model terkemuka.
Dalam penilaian keupayaan kefahaman membaca, Wenxin 4.0 juga bersinar. Ia bukan sahaja mengatasi GPT-4 Turbo dan Claude-3, tetapi juga melepasi GLM-4 dan mencapai skor tertinggi.
Dalam penilaian keselamatan yang paling dibimbangkan oleh perusahaan, Teks GPT 4.0 juga menunjukkan prestasi cemerlang. Ia mencapai skor tinggi 89.1 mata, mengatasi model siri GPT-4 bertaraf dunia dan Claude-3. menduduki tempat pertama, manakala Claude-3 hanya menduduki tempat keempat dalam ulasan ini.
Laporan itu juga menyebut bahawa sejak Wenxinyiyan membuat penampilan pertama secara terbuka pada 16 Mac tahun lalu, ia telah mencapai kejayaan dalam bilangan pengguna dalam tempoh yang singkat, dan kini mempunyai lebih daripada 200 juta pengguna. Pada masa yang sama, bilangan panggilan API harian juga sangat aktif, melebihi 200 juta kali.
Atas ialah kandungan terperinci Wenxin 4.0 menunjukkan prestasi yang baik dalam penilaian SuperBench, mendahului dalam banyak petunjuk. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!