Rumah Peranti teknologi AI Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

May 26, 2023 pm 03:37 PM
gulung a Sains separa

Xi Xiaoyao Technology Talk Original
Pengarang |. PythonChatGPT, sebagai aplikasi perbualan manusia-mesin pintar, dengan cepat menjadi popular di seluruh dunia selepas pelancarannya. Hanya dalam satu bulan, bilangan penggunanya telah melebihi 100 juta. Orang juga menggunakan ChatGPT untuk menguji banyak item peperiksaan, seperti SAT, AP, GRE, dsb. Namun, bagaimanakah keadaannya jika ChatGPT dibenarkan menyertai peperiksaan kemasukan kolej China? Adakah dia akan berat sebelah? Bolehkah orang biasa seperti kami melepasi ChatGPT? Mari lihat ulasan yang dibawakan kepada anda oleh pelajar dari Universiti Fudan dan Universiti Normal China Timur.

Tajuk kertas:
Menilai Prestasi Model Bahasa Besar pada Penanda Aras GAOKAO
Pautan kertas:https://www.php.cn/link/de66dbc30377a1f7908db45298

Bagaimana untuk menggunakan ChatGPT untuk menjawab soalan peperiksaan kemasukan kolej?

Kertas ini menggunakan kaedah gesaan sifar penyeliaan untuk menukar soalan ujian kepada input ChatGPT, seperti yang ditunjukkan dalam rajah di bawah. Kaedah inkuiri yang berbeza direka untuk subjek dan jenis soalan yang berbeza. Untuk soalan matematik, tukar formula kepada input lateks.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Set Data Peperiksaan Masuk Kolej

Ujian dalam artikel ini menggunakan kertas A kebangsaan dan kertas B kebangsaan dari 2010 hingga 2022, sejumlah 13 tahun. Setiap set kertas ujian mengandungi 10 mata pelajaran Mata pelajaran termasuk Bahasa Cina, Matematik, Bahasa Inggeris, Fizik, Kimia, Kehidupan, Sejarah, dan Geografi dibahagikan kepada matematik sains dan matematik seni liberal.

Set data mengandungi sejumlah 2811 soalan ujian. Jenis soalan khusus tidak akan dibincangkan di sini Saya percaya pembaca sangat biasa dengan soalan peperiksaan kemasukan kolej.

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Semasa penilaian, guru sekolah menengah dari Sekolah Menengah No. 2 Caoyang di Shanghai telah diupah untuk menandakan soalan subjektif.

Eksperimen dan Analisis

Markah yang diperolehi oleh ChatGPT dalam peperiksaan kemasukan kolej selama ini ditunjukkan dalam rajah di bawah. Memandangkan setiap mata pelajaran dinormalkan kepada 100 mata apabila mengira markah, markah ini tidak boleh dibandingkan secara langsung dengan markah peperiksaan kemasukan kolej anda dan saya. Tetapi ia juga boleh dilihat bahawa skor ini tidak ideal, dan dianggarkan bahawa Fudan atau Universiti Normal China Timur tidak akan diterima. kenapa ni?

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!

Gambar di atas menunjukkan prestasi ChatGPT dalam pelbagai subjek dan topik subjektif dan objektif. Biru ialah soalan objektif dan kuning ialah soalan subjektif. Analisis mendapati ChatGPT menunjukkan prestasi yang lebih baik dalam soalan objektif, terutamanya kefahaman bacaan Bahasa Inggeris, pilihan tunggal, dan cloze, masing-masing mencapai ketepatan 88.3%, 78.1% dan 73.8%. Tetapi walaupun untuk soalan objektif, kadar ketepatan dalam sains dan matematik adalah kurang daripada 40%. Matematik memang susah~

Prestasi ChatGPT pada soalan subjektif adalah lemah Dalam mata pelajaran fizik, kimia, biologi dan matematik, prestasi soalan subjektif jelas tidak sebaik soalan objektif. Markah untuk soalan objektif dalam mata pelajaran sains juga lemah. Mungkin ChatGPT berat sebelah kepada mata pelajaran seni liberal? Menurut ulasan pengulas, kelemahan utama ChatGPT ialah: 1. Persamaan kompleks dalam masalah matematik sukar diselesaikan dengan betul, dan formula yang salah digunakan dalam proses penyelesaian masalah. 2. Keupayaan yang tidak mencukupi untuk memahami dan merumuskan apabila membaca bahan yang lebih panjang.

Ringkasan

ChatGPT mungkin tidak menggunakan data soalan peperiksaan kemasukan kolej Cina semasa proses latihan, jadi prestasinya tidak terjejas oleh kebocoran data dan mempunyai kredibiliti tinggi.

Keputusan pemerhatian menunjukkan bahawa berbanding dengan peperiksaan asing, prestasi ChatGPT pada soalan peperiksaan kemasukan kolej Cina adalah rendah sedikit. Oleh itu, pelajar domestik tidak perlu terlalu risau kerana tidak dapat lulus peperiksaan ChatGPT buat masa ini. Walau bagaimanapun, keupayaan ringkasan teks panjang yang disebut dalam artikel telah dipertingkatkan dengan ketara dalam GPT4-32K, dan model besar domestik juga telah dioptimumkan lagi pada data Cina. Oleh itu, kita boleh menjangkakan prestasi yang lebih mengagumkan pada soalan peperiksaan kemasukan kolej model besar pada masa hadapan.

Selain itu, idea menggunakan ChatGPT untuk menyelesaikan soalan peperiksaan kemasukan kolej mungkin dapat menjawab perdebatan di kalangan netizen tentang soalan peperiksaan wilayah mana yang lebih sukar?

Atas ialah kandungan terperinci Apabila ChatGPT mengambil bahagian dalam peperiksaan kemasukan kolej China dan memberinya kertas A dan B kebangsaan, ia ternyata berat sebelah!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Cara Menggunakan Dall-E 3: Contoh, Contoh, dan Ciri Cara Menggunakan Dall-E 3: Contoh, Contoh, dan Ciri Mar 09, 2025 pm 01:00 PM

Dall-E 3: Alat Penciptaan Imej AI Generatif AI Generatif merevolusi penciptaan kandungan, dan Dall-E 3, model penjanaan imej terbaru OpenAI, berada di barisan hadapan. Dikeluarkan pada bulan Oktober 2023, ia dibina pada pendahulunya, Dall-E dan Dall-E 2

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Elon Musk & Sam Altman bertembung lebih daripada $ 500 bilion projek Stargate Mar 08, 2025 am 11:15 AM

Projek AI Stargate $ 500 bilion, yang disokong oleh gergasi teknologi seperti Openai, Softbank, Oracle, dan Nvidia, dan disokong oleh kerajaan A.S., bertujuan untuk mengukuhkan kepimpinan AI Amerika. Usaha bercita -cita tinggi ini menjanjikan masa depan yang dibentuk oleh AI Advanceme

Sora vs Veo 2: Mana yang mencipta video yang lebih realistik? Sora vs Veo 2: Mana yang mencipta video yang lebih realistik? Mar 10, 2025 pm 12:22 PM

Google's Veo 2 dan Openai's Sora: Generator Video AI Mana yang memerintah Supreme? Kedua -dua platform menghasilkan video AI yang mengagumkan, tetapi kekuatan mereka terletak di kawasan yang berbeza. Perbandingan ini, menggunakan pelbagai arahan, mendedahkan alat yang paling sesuai dengan keperluan anda. T

Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

AI mana yang lebih baik daripada chatgpt? AI mana yang lebih baik daripada chatgpt? Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

See all articles