Berita pada 4 April, model bahasa terbaru OpenAI GPT-4 bukan sahaja mampu menjana pelbagai teks seperti manusia, juga mampu mereka bentuk dan melaksanakan ujian untuk menilai dan meningkatkan prestasi mereka. Teknologi "pantulan" ini telah membolehkan GPT-4 mencapai peningkatan yang ketara dalam banyak ujian yang sukar, dengan prestasi ujian meningkat sebanyak 30%.
GPT-4 ialah sistem paling maju yang dilancarkan oleh OpenAI selepas GPT, GPT-2 dan GPT-3, dan kini merupakan model berbilang modal terbesar (boleh menerima input imej dan teks serta teks output). Ia memanfaatkan teknologi pembelajaran mendalam, menggunakan rangkaian saraf tiruan untuk meniru tulisan manusia.
Penyelidik Noah Shinn dan Ashwin Gopinath menulis dalam kertas itu: "Kami telah membangunkan teknologi baru yang membolehkan ejen AI untuk Untuk mensimulasikan refleksi diri manusia dan menilai prestasi sendiri, GPT-4 akan menambah beberapa langkah tambahan supaya bahawa ia boleh mereka bentuk ujiannya sendiri untuk menyemak jawapannya sendiri dan mengenal pasti ralat dan kekurangan Kemudian ubah suai penyelesaian anda berdasarkan penemuan ”
Dalam ujian pengekodan HumanEval, GPT. -4 menggunakan gelung refleksi kendiri, dan ketepatan meningkat daripada 67% kepada 88%. , dan seperti yang ditunjukkan dalam keputusan ujian AlfWorld, prestasinya boleh dipertingkatkan dengan sangat baik
Penyelidikan Pasukan menggunakan teknik ini untuk menjalankan beberapa ujian prestasi yang berbeza pada GPT-4. Dalam ujian HumanEval, GPT-4 perlu menyelesaikan 164 masalah pengaturcaraan Python yang tidak pernah dilihat sebelum ini Ketepatan asal ialah 67%. Dalam ujian Alfworld, AI perlu membuat keputusan dan menyelesaikan tugasan berbilang langkah dengan melaksanakan beberapa operasi yang dibenarkan dalam pelbagai persekitaran interaktif yang berbeza. Selepas menggunakan teknik refleksi, ketepatan GPT-4 meningkat daripada 73% kepada 97%, dengan hanya 4 kegagalan tugasan. Dalam ujian HotPotQA, GPT-4 mengakses Wikipedia dan menjawab 100 soalan yang memerlukan penghuraian kandungan dan penaakulan daripada berbilang dokumen sokongan. Ketepatan asal ialah 34%.
Atas ialah kandungan terperinci Keupayaan GPT-4 sangat meningkat selepas 'muhasabah diri', dan prestasi ujian meningkat sebanyak 30%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!