GPT-4V OpenAI dan model bahasa besar berbilang modal Gemini Google telah menarik perhatian meluas daripada industri dan akademia. Model ini menunjukkan pemahaman mendalam tentang video dalam berbilang domain, menunjukkan potensinya dari perspektif yang berbeza. Kemajuan ini dilihat secara meluas sebagai langkah penting ke arah kecerdasan am buatan (AGI).
Tetapi jika saya memberitahu anda bahawa GPT-4V boleh salah membaca tingkah laku watak dalam komik, izinkan saya bertanya: Yuanfang, apa pendapat anda?
Mari kita lihat siri komik mini ini:
Gambar
Jika anda membiarkan kecerdasan tertinggi dalam dunia biologi - manusia, iaitu, rakan-rakan pembaca, akan menerangkannya. mungkin akan berkata:
Gambar
Kemudian mari kita lihat apakah kecerdasan tertinggi dalam dunia mesin - iaitu, GPT-4V - akan menerangkan apabila ia datang kepada siri komik mini ini?
Gambar - 4V, sebagai perisikan mesin yang diiktiraf sebagai berdiri di bahagian atas rantai penghinaan, sebenarnya secara terang-terangan berbohong.
Apa yang lebih keterlaluan ialah walaupun GPT-4V diberi klip imej kehidupan sebenar, ia juga akan secara tidak masuk akal mengenali tingkah laku seseorang bercakap dengan orang lain semasa menaiki tangga sebagai dua orang yang memegang "senjata" berlawan antara satu sama lain. Suka bermain (gambar di bawah). . GambarContoh ini datang daripada keputusan terkini pasukan penyelidik di University of Maryland dan North Carolina Chapel Hill, yang melancarkan Mementos, penanda aras inferens untuk jujukan imej yang direka khusus untuk MLLM.
Sama seperti filem Nolan Memento mentakrifkan semula penceritaan, Mementos mencipta semula had menguji kecerdasan buatan. Sebagai ujian penanda aras baharu, ia mencabar pemahaman kecerdasan buatan tentang jujukan imej seperti serpihan memori.Gambar
Pautan kertas: https://arxiv.org/abs/2401.10529Laman utama projek: https://mementos-bench.github.io Mementos yang direka khusus untuk Abenchmark yang pertama untuk penaakulan jujukan imej yang memfokuskan pada halusinasi objek dan halusinasi tingkah laku model besar pada imej berturut-turut.Ia melibatkan pelbagai jenis gambar, meliputi tiga kategori utama: imej dunia sebenar, imej robot dan imej animasi. Dan mengandungi 4,761 jujukan imej yang pelbagai dengan panjang yang berbeza, setiap satu dengan anotasi manusia yang menerangkan objek utama dan kelakuannya dalam jujukan itu.
Gambar
Data pada masa ini adalah sumber terbuka dan masih dikemas kini. Jenis halusinasiDalam kertas kerja, penulis menerangkan dua jenis halusinasi yang akan dihasilkan oleh MLLM dalam Mementos: halusinasi objek dan halusinasi tingkah laku. Seperti namanya, halusinasi objek ialah membayangkan objek (objek) yang tidak wujud, manakala halusinasi tingkah laku ialah membayangkan tindakan dan tingkah laku yang tidak dilakukan oleh objek tersebut.
Kaedah penilaian
Untuk menilai dengan tepat halusinasi tingkah laku dan halusinasi objek MLLM pada Mementos, pasukan penyelidik memilih untuk memadankan kata kunci dengan perihalan imej yang dihasilkan oleh MLLM dan perihalan anotasi manusia.
Untuk menilai prestasi setiap MLLM secara automatik, pengarang menggunakan kaedah ujian tambahan GPT-4 untuk menilai:
Gambar
1. Pengarang mengambil jujukan imej dan perkataan gesaan sebagai input kepada MLLM, dan menjana Perihalan yang sepadan dengan jujukan imej
2 Minta GPT-4 untuk mengekstrak kata kunci objek dan tingkah laku dalam perihalan yang dijana oleh AI
3 Senarai perkataan kunci tingkah laku yang dijana oleh AI;
4 Kira kadar ingatan semula, kadar ketepatan dan indeks F1 senarai kata kunci objek dan senarai kata kunci tingkah laku yang dijana oleh AI dan senarai kata kunci beranotasi manusia.
Pengarang menilai prestasi MLLM dalam penaakulan imej urutan pada Mementos, dan menjalankan penilaian terperinci terhadap sembilan MLLM terkini termasuk GPT4V dan Gemini.
MLLM diminta untuk menerangkan peristiwa yang berlaku dalam jujukan imej untuk menilai keupayaan penaakulan MLLM untuk imej berterusan.
Hasilnya mendapati, seperti yang ditunjukkan dalam rajah di bawah, ketepatan GPT-4V dan Gemini untuk tingkah laku watak dalam set data komik adalah kurang daripada 20%.
Gambar
Dalam imej dunia sebenar dan imej robot, prestasi GPT-4V dan Gemini tidak memuaskan:
Gambar
Gambar
Seperti yang dapat dilihat dari rajah di atas, sebab kegagalan MLLM termasuk halusinasi objek dan korelasi serta antara halusinasi objek dan korelasi. tingkah laku yang berlaku bersama.Sebagai contoh, selepas mengalami halusinasi objek "gelanggang tenis", MLLM kemudian menunjukkan halusinasi tingkah laku "memegang raket tenis" (kaitan antara halusinasi objek dan halusinasi tingkah laku) dan tingkah laku bersama "nampak bermain tenis" . .
Fenomena ini mendedahkan bahawa MLLM juga boleh menghasilkan ilusi bahawa beberapa tindakan telah berlaku pada objek untuk objek statik dalam jujukan imej.
GambarDalam paparan jujukan imej di atas lengan robot, lengan robot mencapai sebelah pemegang, dan MLLM tersilap percaya bahawa lengan robot telah memegang pemegang, akan membuktikan bahawa imej Gabungan tingkah laku biasa dalam penaakulan urutan, dengan itu menghasilkan halusinasi.
Gambar
Dalam kes di atas, tuan lama tidak memimpin anjing itu secara tersilap percaya bahawa berjalan dengan anjing itu memerlukan memimpin anjing itu, dan "anjing lompat tiang" diiktiraf sebagai "Pancuran air. diciptakan."
Jumlah ralat yang besar mencerminkan ketidakbiasaan MLLM dengan bidang komik Dalam bidang animasi dua dimensi, MLLM mungkin memerlukan pengoptimuman dan pra-latihan yang ketara
Dalam setiap kategori utama, pengarang. secara terperinci kes kegagalan dan menjalankan analisis yang mendalam. Ringkasan Dalam beberapa tahun kebelakangan ini, model bahasa berskala besar berbilang modal telah menunjukkan keupayaan yang sangat baik dalam mengendalikan pelbagai tugas visual-linguistik. Model ini, seperti GPT-4V dan Gemini, dapat memahami dan menjana teks yang berkaitan dengan imej, dengan sangat menggalakkan pembangunan teknologi kecerdasan buatan. Walau bagaimanapun, penanda aras MLLM sedia ada tertumpu terutamanya pada inferens berdasarkan imej statik tunggal, manakala keupayaan untuk membuat kesimpulan daripada jujukan imej, yang penting untuk memahami dunia kita yang berubah, telah dikaji dengan agak kurang baik. Untuk menangani cabaran ini, penyelidik mencadangkan penanda aras baharu "Mementos", yang bertujuan untuk menilai keupayaan MLLM dalam penaakulan imej urutan. Mementos mengandungi 4761 jujukan imej yang pelbagai dengan panjang yang berbeza. Selain itu, pasukan penyelidik juga menggunakan kaedah tambahan GPT-4 untuk menilai prestasi inferens MLLM. Melalui penilaian teliti sembilan MLLM terbaharu (termasuk GPT-4V dan Gemini) pada Mementos, kajian mendapati model ini mempunyai cabaran dalam menerangkan maklumat dinamik jujukan imej yang diberikan dengan tepat, sering mengakibatkan objek dan kelakuannya halusinasi /salah ungkap. Kajian Analisis dan Kes Kajian Tiga Faktor Utama yang Mempengaruhi Keterangan Imej Imej: 13. Kesan kumulatif halusinasi tingkah laku.
Penemuan ini sangat penting untuk memahami dan meningkatkan keupayaan MLLM dalam memproses maklumat visual dinamik. Penanda aras Mementos bukan sahaja mendedahkan batasan MLLM semasa, tetapi juga menyediakan arahan untuk penyelidikan dan penambahbaikan masa hadapan.
Dengan perkembangan pesat teknologi kecerdasan buatan, aplikasi MLLM dalam bidang pemahaman pelbagai modal akan menjadi lebih meluas dan mendalam. Pengenalan penanda aras Mementos bukan sahaja menggalakkan penyelidikan dalam bidang ini, tetapi juga memberikan kita perspektif baharu untuk memahami dan menambah baik cara sistem AI maju ini memproses dan memahami dunia kita yang kompleks dan sentiasa berubah.
Rujukan:
https://github.com/umd-huanglab/Mementos
Atas ialah kandungan terperinci Kadar ketepatan kurang daripada 20%, GPT-4V/Gemini tidak boleh membaca komik! Penanda aras jujukan imej sumber terbuka pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!