Rumah Peranti teknologi AI Ujian tergesa-gesa model bahasa Cina: SenseTime, Shanghai AI Lab dan lain-lain yang baru dikeluarkan 'Scholar·Puyu'

Ujian tergesa-gesa model bahasa Cina: SenseTime, Shanghai AI Lab dan lain-lain yang baru dikeluarkan 'Scholar·Puyu'

Jun 07, 2023 pm 07:19 PM

Jantung Mesin dikeluarkan

Jabatan Editorial Jantung Mesin

Hari ini, peperiksaan kemasukan tahunan kolej bermula secara rasmi.

Apa yang berbeza daripada tahun-tahun sebelumnya ialah ketika calon-calon di seluruh negara bergegas ke bilik peperiksaan, beberapa model bahasa besar turut menjadi pemain istimewa dalam pertandingan ini.

Memandangkan model bahasa besar AI semakin menunjukkan kecerdasan rapat dengan manusia, peperiksaan yang sangat sukar dan komprehensif yang direka untuk manusia semakin diperkenalkan untuk menilai tahap kecerdasan model bahasa.

Sebagai contoh, dalam laporan teknikal tentang GPT-4, OpenAI terutamanya menguji keupayaan model melalui peperiksaan dalam pelbagai bidang, dan "keupayaan mengambil ujian" cemerlang yang ditunjukkan oleh GPT-4 juga tidak dijangka.

Bagaimanakah keputusan Kertas Peperiksaan Masuk Kolej Cabaran Model Bahasa Cina? Bolehkah ia mengejar ChatGPT? Mari kita lihat prestasi seorang "calon".

"Ujian besar" yang komprehensif: "Scholar Puyu" berbilang keputusan mendahului ChatGPT

Baru-baru ini, SenseTime dan Makmal AI Shanghai, bersama-sama dengan Universiti Cina Hong Kong, Universiti Fudan dan Universiti Jiao Tong Shanghai, mengeluarkan model bahasa besar parameter 100 bilion peringkat "Scholar Puyu" (InternLM).

"Scholar·Puyu" mempunyai 104 bilion parameter dan dilatih pada set data berkualiti tinggi berbilang bahasa yang mengandungi 1.6 trilion token.

Hasil penilaian komprehensif menunjukkan bahawa "Scholar Puyu" bukan sahaja berprestasi baik dalam pelbagai tugasan ujian seperti penguasaan pengetahuan, pemahaman membaca, penaakulan matematik, terjemahan berbilang bahasa, dll., tetapi juga mempunyai kebolehan komprehensif yang cemerlang dalam banyak perkara Peperiksaan Cina dan telah mencapai keputusan melebihi ChatGPT, termasuk set data (GaoKao) pelbagai mata pelajaran dalam Peperiksaan Masuk Kolej Cina.

Pasukan bersama "Scholar·Puyu" memilih lebih daripada 20 penilaian untuk mengujinya, termasuk empat set penilaian peperiksaan komprehensif yang paling berpengaruh di dunia:

  • Set penilaian peperiksaan pelbagai tugas MMLU yang dibina oleh universiti seperti University of California, Berkeley
  • AGIEval, set penilaian peperiksaan mata pelajaran yang dilancarkan oleh Microsoft Research (termasuk Peperiksaan Masuk Kolej China, Peperiksaan Kehakiman dan American SAT, LSAT, GRE dan GMAT, dsb.);
  • C-Eval, set penilaian peperiksaan komprehensif untuk model bahasa Cina, dibina bersama oleh Universiti Jiao Tong Shanghai, Universiti Tsinghua dan Universiti Edinburgh
  • Dan Gaokao, set penilaian soalan peperiksaan kemasukan kolej yang dibina oleh pasukan penyelidik Universiti Fudan
Pasukan makmal bersama menjalankan ujian komprehensif tentang "Scholar·Puyu", GLM-130B, LLaMA-65B, ChatGPT dan GPT-4 Keputusan empat set penilaian di atas dibandingkan seperti berikut (daripada 100 mata) .

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

"Scholar Puyu" bukan sahaja dengan ketara mengatasi model sumber terbuka akademik seperti GLM-130B dan LLaMA-65B, tetapi juga menerajui ChatGPT dalam pelbagai peperiksaan komprehensif seperti AGIEval, C-Eval dan Gaokao dalam peperiksaan utama AS Pelaksanaan MMLU adalah sama seperti ChatGPT. Keputusan

peperiksaan komprehensif ini mencerminkan penguasaan ilmu yang mantap dan kebolehan komprehensif yang cemerlang "Scholar·Puyu" .

Walaupun “Scholar·Puyu” mencapai keputusan cemerlang dalam penilaian peperiksaan, ia juga dapat dilihat dalam penilaian bahawa model bahasa yang besar masih mempunyai banyak batasan. "Scholar Puyu" dihadkan oleh panjang tetingkap konteks 2K (panjang tetingkap konteks GPT-4 ialah 32K), dan terdapat had yang jelas dalam pemahaman teks panjang, penaakulan kompleks, penulisan kod dan potongan logik matematik. Di samping itu, dalam perbualan sebenar, model bahasa besar masih mempunyai masalah biasa seperti ilusi dan kekeliruan konsep. Pengehadan ini menjadikan penggunaan model bahasa yang besar dalam senario terbuka masih jauh lagi.

Keputusan empat set data penilaian peperiksaan komprehensif

MMLU ialah set penilaian ujian pelbagai tugas yang dibina bersama oleh University of California, Berkeley (UC Berkeley), Columbia University, University of Chicago dan UIUC, meliputi matematik asas, fizik, kimia, sains komputer, sejarah A.S., undang-undang, ekonomi, dan diplomasi dan banyak disiplin lain.

Keputusan mata pelajaran yang dipecah bahagi ditunjukkan dalam jadual di bawah.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Tebal dalam rajah menunjukkan hasil terbaik, dan garis bawah menunjukkan hasil kedua

AGIEval ialah set penilaian peperiksaan mata pelajaran baharu yang dicadangkan oleh Microsoft Research tahun ini Matlamat utamanya adalah untuk menilai keupayaan model bahasa melalui peperiksaan berorientasikan, dengan itu mencapai perbandingan antara kecerdasan model dan kecerdasan manusia.

Set penilaian ini terdiri daripada 19 item penilaian berdasarkan pelbagai peperiksaan di China dan Amerika Syarikat, termasuk peperiksaan kemasukan kolej China, peperiksaan kehakiman dan peperiksaan penting seperti SAT, LSAT, GRE dan GMAT di Amerika Syarikat. Perlu dinyatakan bahawa 9 daripada 19 jurusan ini adalah daripada Peperiksaan Masuk Kolej Cina, dan biasanya disenaraikan sebagai subset penilaian penting AGIEval (GK).

Dalam jadual berikut, mereka yang bertanda GK ialah mata pelajaran peperiksaan kemasukan kolej Cina.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Tebal dalam rajah menunjukkan hasil terbaik, dan garis bawah menunjukkan hasil kedua

C-Eval ialah set penilaian peperiksaan komprehensif untuk model bahasa Cina yang dibina bersama oleh Universiti Jiao Tong Shanghai, Universiti Tsinghua dan Universiti Edinburgh.

Ia mengandungi hampir 14,000 soalan ujian dalam 52 mata pelajaran, meliputi matematik, fizik, kimia, biologi, sejarah, politik, komputer dan peperiksaan mata pelajaran lain, serta peperiksaan profesional untuk penjawat awam, akauntan awam bertauliah, peguam dan doktor.

Keputusan ujian boleh diperoleh melalui papan pendahulu.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Pautan ini ialah senarai kedudukan pertandingan penilaian CEVA

Gaokao ialah set penilaian ujian komprehensif berdasarkan soalan Peperiksaan Kemasukan Kolej Cina yang dibina oleh pasukan penyelidik Universiti Fudan Ia merangkumi pelbagai subjek Peperiksaan Masuk Kolej Cina, serta pelbagai jenis soalan seperti itu sebagai soalan aneka pilihan, isi tempat kosong dan soal jawab.

Dalam penilaian GaoKao, “Scholar·Puyu” menerajui ChatGPT dalam lebih daripada 75% projek.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Sub-penilaian: Prestasi cemerlang dalam pemahaman bacaan dan keupayaan penaakulan

Untuk mengelakkan "berorientasikan sebahagian subjek", penyelidik juga menilai dan membandingkan keupayaan sub-skor model bahasa seperti "Scholar Puyu" melalui pelbagai set penilaian akademik.

Keputusan menunjukkan bahawa "Scholar Puyu" bukan sahaja berprestasi baik dalam pemahaman bacaan dalam bahasa Cina dan Inggeris, tetapi juga mencapai keputusan yang baik dalam penilaian seperti penaakulan matematik dan keupayaan pengaturcaraan .

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Dari segi soalan dan jawapan ilmu, "Scholar Puyu" mendapat markah 69.8 dan 27.6 pada TriviaQA dan NaturalQuestions, kedua-duanya mengatasi LLaMA-65B (skor 68.2 dan 23.8).

Dari segi kefahaman bacaan (Bahasa Inggeris) , "Scholar·Puyu" jelas mendahului LLaMA-65B dan ChatGPT. Puyu mendapat markah 92.7 dan 88.9 dalam kefahaman membaca bahasa Inggeris sekolah menengah dan sekolah menengah, 85.6 dan 81.2 pada ChatGPT, malah lebih rendah pada LLaMA-65B.

Dari segi pemahaman bahasa Cina, prestasi "Scholar Puyu" secara menyeluruh mengatasi dua model bahasa Cina utama ERNIE-260B dan GLM-130B.

Dari segi terjemahan pelbagai bahasa, "Scholar Puyu" mempunyai purata skor 33.9 dalam terjemahan pelbagai bahasa, dengan ketara mengatasi LLaMA (skor purata 15.1).

Dari segi penaakulan matematik, "Scholar Puyu" masing-masing mendapat 62.9 dan 14.9 dalam GSM8K dan MATH, dua ujian matematik yang digunakan secara meluas untuk penilaian, jauh lebih tinggi daripada PaLM -540B Google (skor 56.5). dan 8.8) dan LLaMA-65B (skor 50.9 dan 10.9).

Dari segi keupayaan pengaturcaraan, "Scholar Puyu" masing-masing mendapat 28.1 dan 41.4 dalam dua penilaian yang paling mewakili, HumanEval dan MBPP (selepas penalaan halus dalam bidang pengekodan , markah pada HumanEval boleh bertambah baik kepada 45.7), jauh mendahului PaLM-540B (skor 26.2 dan 36.8) dan LLaMA-65B (skor 23.7 dan 37.7).

Selain itu, penyelidik juga menilai keselamatan "Scholar Puyu". On TruthfulQA (terutamanya menilai ketepatan fakta jawapan) dan CrowS-Pairs (terutamanya menilai sama ada jawapan mengandungi bias), bahasa "Scholar Puyu"" telah mencapai tahap terkemuka.

Atas ialah kandungan terperinci Ujian tergesa-gesa model bahasa Cina: SenseTime, Shanghai AI Lab dan lain-lain yang baru dikeluarkan 'Scholar·Puyu'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Adakah chatgpt 4 o tersedia? Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

AI mana yang lebih baik daripada chatgpt? AI mana yang lebih baik daripada chatgpt? Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

Cara Menggunakan Mistral OCR untuk Model RAG Seterusnya Cara Menggunakan Mistral OCR untuk Model RAG Seterusnya Mar 21, 2025 am 11:11 AM

Mistral OCR: Merevolusi Generasi Pengambilan Pengambilan semula dengan Pemahaman Dokumen Multimodal Sistem Generasi Pengambilan Retrieval (RAG) mempunyai keupayaan AI yang ketara, membolehkan akses ke kedai data yang luas untuk mendapatkan respons yang lebih tepat

See all articles