Bagi manusia, memahami maklumat sesuatu gambar tidak lebih daripada perkara remeh-temeh. Sama seperti gambar di bawah, pengecas yang dipasangkan telefon agak tidak sesuai. Manusia boleh melihat masalah itu sepintas lalu, tetapi untuk AI, ia masih sangat sukar.
Kemunculan GPT-4 telah mula memudahkan masalah ini dengan cepat menunjukkan masalah dalam gambar: Kabel VGA mengecas iPhone .
Sebenarnya, daya tarikan GPT-4 jauh lebih kurang daripada ini. Apa yang lebih mengujakan ialah menggunakan lakaran yang dilukis dengan tangan untuk terus menjana laman web, melukis gambar rajah yang diconteng. kertas gores, ambil foto, dan kemudian hantarkannya Berikan GPT-4 dan biarkan ia menulis kod tapak web mengikut rajah Whoosh, GPT-4 menulis kod halaman web.
Tetapi malangnya, fungsi GPT-4 ini belum dibuka kepada orang ramai, dan adalah mustahil untuk memulakan dan mengalaminya. Walau bagaimanapun, sesetengah orang tidak sabar lagi, dan pasukan dari Universiti Sains dan Teknologi Raja Abdullah (KAUST) telah membangunkan produk yang serupa dengan GPT-4 - MiniGPT-4. Penyelidik pasukan termasuk Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang dan Mohamed H. Elhoseiny, yang kesemuanya adalah daripada kumpulan penyelidikan Vision-CAIR KAUST.
Paparan MiniGPT-4 Ia menawarkan banyak keupayaan seperti GPT-4, seperti menjana penerangan imej terperinci dan mencipta tapak web daripada draf tulisan tangan. Selain itu, pengarang memerhatikan keupayaan lain yang muncul dari MiniGPT-4, termasuk mencipta cerita dan puisi berdasarkan imej yang diberikan, menyediakan penyelesaian kepada masalah yang ditunjukkan dalam imej, mengajar pengguna cara memasak berdasarkan foto makanan, dsb.
Sejauh manakah MiniGPT-4 berkesan? Mari kita mulakan dengan beberapa contoh. Di samping itu, untuk mendapatkan pengalaman yang lebih baik dengan MiniGPT-4, adalah disyorkan untuk menggunakan input bahasa Inggeris untuk ujian.
Pertama, mari kita periksa keupayaan MiniGPT-4 untuk menerangkan imej. Untuk gambar di sebelah kiri, jawapan yang diberikan oleh MiniGPT-4 adalah kira-kira "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat kristal ais yang besar di sekeliling kaktus, dan terdapat puncak yang dilitupi salji di kejauhan... "Jika anda bertanya seterusnya Bolehkah senario ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya.
Seterusnya, mari kita lihat keupayaan soalan dan jawapan imej MiniGPT-4. Soalan: "Apa yang salah dengan tumbuhan ini? Apa yang perlu saya lakukan?" MiniGPT-4 bukan sahaja menunjukkan masalah, tetapi juga menyatakan bahawa daun dengan bintik coklat mungkin disebabkan oleh jangkitan kulat, dan memberi langkah rawatan:
Melihat beberapa contoh, fungsi sembang gambar MiniGPT-4 sudah sangat berkuasa. Bukan itu sahaja, malah MiniGPT-4 boleh membuat laman web daripada lakaran. Sebagai contoh, biarkan MiniGPT-4 melukis halaman web mengikut draf rajah di sebelah kiri Selepas menerima arahan, MiniGPT-4 memberikan kod HTML yang sepadan dan tapak web yang sepadan seperti yang diperlukan:
<.>
Dengan MiniGPT-4, menulis slogan pengiklanan untuk gambar menjadi sangat mudah. Minta MiniGPT-4 menulis salinan pengiklanan untuk cawan di sebelah kiri. MiniGPT-4 dengan tepat menunjukkan corak kucing mengantuk pada cawan, yang sangat sesuai untuk penggemar kopi dan pencinta kucing Ia juga menunjukkan bahan cawan, dll.:
.
MiniGPT-4 juga boleh menjana resipi berdasarkan gambar, menjadikan anda pakar dapur:
Terangkan meme popular:
Tulis puisi berdasarkan gambar:
Selain itu, perlu dinyatakan bahawa Demo MiniGPT-4 kini dibuka dan boleh dimainkan dalam talian Anda boleh mengalaminya sendiri ( Adalah disyorkan untuk menggunakan ujian Bahasa Inggeris):
Alamat demo: https:/ /0810e8582bcad31944.gradio.live/
Sejurus projek itu dikeluarkan, ia menarik perhatian meluas daripada netizen. Contohnya, biarkan MiniGPT-4 menerangkan objek dalam gambar:
Terdapat lebih banyak pengalaman ujian daripada netizen di bawah:
Pengarang Adalah dipercayai bahawa model bahasa besar termaju (LLM) GPT-4 adalah sebab utama keupayaan penjanaan pelbagai mod termajunya. Untuk mengkaji fenomena ini, penulis mencadangkan MiniGPT-4, yang menggunakan lapisan unjuran untuk menyelaraskan pengekod visual beku dan LLM beku (Vicuna).
MiniGPT-4 terdiri daripada pengekod visual ViT dan Q-Bekas terlatih, lapisan unjuran linear yang berasingan dan model bahasa besar Vicuna termaju. MiniGPT-4 hanya memerlukan latihan lapisan linear untuk menyelaraskan ciri visual dengan Vicuna.
MiniGPT-4 telah dilatih dalam dua peringkat. Peringkat pra-latihan tradisional pertama mengambil masa 10 jam untuk melatih pada 4 GPU A100 menggunakan kira-kira 5 juta pasangan teks imej yang dijajarkan. Selepas peringkat pertama, Vicuna dapat memahami imej. Tetapi kebolehan penjanaan teks Vicuna sangat terjejas.
Untuk menyelesaikan masalah ini dan meningkatkan kebolehgunaan, para penyelidik mencadangkan cara baharu untuk mencipta pasangan teks imej berkualiti tinggi melalui model itu sendiri dan ChatGPT. Berdasarkan ini, kajian itu mencipta set data yang kecil tetapi berkualiti tinggi (jumlahnya 3500 pasang).
Peringkat penalaan halus kedua dilatih pada set data ini menggunakan templat perbualan untuk meningkatkan kebolehpercayaan penjanaan dan kebolehgunaan keseluruhannya dengan ketara. Peringkat ini cekap dari segi pengiraan dan hanya memerlukan A100GPU dalam kira-kira 7 minit untuk diselesaikan.
Kerja berkaitan lain:
Selain itu, perpustakaan kod sumber terbuka termasuk BLIP2 juga digunakan dalam projek itu, Lavis dan Vicuna.
Atas ialah kandungan terperinci 'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!