GPT-4 menyelesaikan meme Internet terkenal "Chihuahua atau blueberry waffle", yang pernah memukau ramai orang.
Namun, kini ia dituduh "menipu"! .
Versi terkini GPT-4 terkenal dengan ciri semua-dalam-satunya. Walau bagaimanapun, yang menghairankan, ia melakukan kesilapan dalam bilangan imej yang dikenalinya, malah Chihuahua, yang pada asalnya dikenali dengan betul, juga mempunyai ralat pengecaman
GambarSebab mengapa GPT-4 berprestasi dengan baik pada asalnya imej adalah Apa?
Menurut spekulasi Penolong Profesor UCSC Xin Eric Wang, alasan untuk menjalankan ujian ini adalah kerana imej asal di Internet terlalu popular. Dia percaya bahawa GPT-4 telah menemui jawapan asal berkali-kali semasa proses latihan dan berjaya menghafalnya LeCun, salah seorang daripada tiga pemenang Anugerah Turing, turut memberi perhatian kepada perkara ini dan berkata:
Berhati-hati dengan latihan set ujian.
Picturesteddy dan ayam goreng tidak dapat dibezakan
bagaimana popular adalah gambar asal? muncul berkali-kali dalam topik berkaitan Penyelidikan tesis sedang berjalan.
GambarMemandangkan aspek keupayaan GPT-4 yang mana terhad, ramai netizen mencadangkan rancangan ujian mereka sendiri, tanpa mengira kesan imej asal
Untuk menolak sama ada susunan itu terlalu rumit dan mempunyai apa-apa kesan, sesetengah orang mengubah suainya kepada yang mudah Susunan 3x3 juga mengakui banyak kesilapan.
GambarGambarSeseorang mengasingkan beberapa gambar dan menghantarnya ke GPT-4 secara individu, dan mendapat kadar ketepatan 5/5. . " dan "Fikirkan langkah demi langkah" ialah dua petua utama dan dapatkan hasil yang betul
Gambar
GPT-4 perkataan dalam jawapan "Ini adalah contoh permainan kata visual atau meme terkenal", Ia juga terdedah bahawa imej asal mungkin wujud dalam data latihan. Diungkapkan semula seperti berikut: Walau bagaimanapun, GPT-4 digunakan dalam jawapannya: "Ini adalah contoh permainan kata visual atau meme terkenal", yang juga mendedahkan bahawa imej asal mungkin wujud dalam data latihan
imej
Akhirnya, seseorang juga menguji ujian "teddy or fried chicken" yang sering muncul bersama, dan mendapati GPT-4 tidak dapat membezakannya dengan baik.
Gambar
"Blueberry or chocolate bean" ni terlalu banyak...
Picture
Big models dipanggil "nonsmia" masalah ilusi, masalah ilusi visual model besar berbilang modal, telah menjadi arah penyelidikan yang popular baru-baru ini.
Dalam kajian di EMNLP 2023, kami mencipta set data GVIL, yang mengandungi 1600 titik data, dan menjalankan penilaian sistematik masalah ilusi visual
# 🎜🎜## 🎜🎜#PictureKajian menunjukkan bahawa model berskala lebih besar lebih mudah terdedah kepada ilusi dan lebih dekat dengan persepsi manusia Satu lagi kajian terbaru memfokuskan pada menilai dua jenis ilusi: berat sebelah dan gangguan 🎜#图
Bias merujuk kepada kecenderungan model untuk menghasilkan jenis tindak balas tertentu, mungkin disebabkan oleh ketidakseimbangan dalam data latihan. Gangguan mungkin berlaku disebabkan oleh cara teks gesaan dituturkan atau cara imej input dipersembahkan.
PictureKajian menunjukkan bahawa GPT-4V sering keliru apabila mentafsir pelbagai imej bersama-sama sahaja Prestasi adalah lebih baik apabila menghantar imej, selaras dengan pemerhatian dalam ujian "Chihuahua atau Waffle".
Selain itu, kajian juga mendapati bahawa GPT-4V lebih baik dalam mentafsir imej dengan latar belakang budaya Barat atau imej dengan teks Inggeris . Sebagai contoh, GPT-4V boleh mengira tujuh anak kerdil + Snow White dengan betul, tetapi ia mengira tujuh anak patung labu kepada 10.
PicturePautan rujukan: [1]https://twitter.com/xwang_lk/status/17152352962 ]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287
Atas ialah kandungan terperinci GPT-4 didedahkan sebagai menipu! LeCun meminta agar berhati-hati apabila menguji pada set latihan, kekeliruan pesanan chihuahua atau muffin membawa kepada kesilapan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!