


'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.
Bagi manusia, memahami maklumat sesuatu gambar tidak lebih daripada perkara remeh-temeh. Sama seperti gambar di bawah, pengecas yang dipasangkan telefon agak tidak sesuai. Manusia boleh melihat masalah itu sepintas lalu, tetapi untuk AI, ia masih sangat sukar.
Kemunculan GPT-4 telah mula memudahkan masalah ini dengan cepat menunjukkan masalah dalam gambar: Kabel VGA mengecas iPhone .
Sebenarnya, daya tarikan GPT-4 jauh lebih kurang daripada ini. Apa yang lebih mengujakan ialah menggunakan lakaran yang dilukis dengan tangan untuk terus menjana laman web, melukis gambar rajah yang diconteng. kertas gores, ambil foto, dan kemudian hantarkannya Berikan GPT-4 dan biarkan ia menulis kod tapak web mengikut rajah Whoosh, GPT-4 menulis kod halaman web.
Tetapi malangnya, fungsi GPT-4 ini belum dibuka kepada orang ramai, dan adalah mustahil untuk memulakan dan mengalaminya. Walau bagaimanapun, sesetengah orang tidak sabar lagi, dan pasukan dari Universiti Sains dan Teknologi Raja Abdullah (KAUST) telah membangunkan produk yang serupa dengan GPT-4 - MiniGPT-4. Penyelidik pasukan termasuk Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang dan Mohamed H. Elhoseiny, yang kesemuanya adalah daripada kumpulan penyelidikan Vision-CAIR KAUST.
- Alamat kertas: https://github.com/Vision-CAIR/MiniGPT- 4/blob/main/MiniGPT_4.pdf
- Halaman utama kertas: https://minigpt-4.github.io/
- Alamat kod: https://github.com/Vision-CAIR/MiniGPT-4
Paparan MiniGPT-4 Ia menawarkan banyak keupayaan seperti GPT-4, seperti menjana penerangan imej terperinci dan mencipta tapak web daripada draf tulisan tangan. Selain itu, pengarang memerhatikan keupayaan lain yang muncul dari MiniGPT-4, termasuk mencipta cerita dan puisi berdasarkan imej yang diberikan, menyediakan penyelesaian kepada masalah yang ditunjukkan dalam imej, mengajar pengguna cara memasak berdasarkan foto makanan, dsb.
MiniGPT-4 memudahkan untuk bercakap hanya dengan melihat gambar
Sejauh manakah MiniGPT-4 berkesan? Mari kita mulakan dengan beberapa contoh. Di samping itu, untuk mendapatkan pengalaman yang lebih baik dengan MiniGPT-4, adalah disyorkan untuk menggunakan input bahasa Inggeris untuk ujian.
Pertama, mari kita periksa keupayaan MiniGPT-4 untuk menerangkan imej. Untuk gambar di sebelah kiri, jawapan yang diberikan oleh MiniGPT-4 adalah kira-kira "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat kristal ais yang besar di sekeliling kaktus, dan terdapat puncak yang dilitupi salji di kejauhan... "Jika anda bertanya seterusnya Bolehkah senario ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya.
Seterusnya, mari kita lihat keupayaan soalan dan jawapan imej MiniGPT-4. Soalan: "Apa yang salah dengan tumbuhan ini? Apa yang perlu saya lakukan?" MiniGPT-4 bukan sahaja menunjukkan masalah, tetapi juga menyatakan bahawa daun dengan bintik coklat mungkin disebabkan oleh jangkitan kulat, dan memberi langkah rawatan:
Melihat beberapa contoh, fungsi sembang gambar MiniGPT-4 sudah sangat berkuasa. Bukan itu sahaja, malah MiniGPT-4 boleh membuat laman web daripada lakaran. Sebagai contoh, biarkan MiniGPT-4 melukis halaman web mengikut draf rajah di sebelah kiri Selepas menerima arahan, MiniGPT-4 memberikan kod HTML yang sepadan dan tapak web yang sepadan seperti yang diperlukan:
<.>
Dengan MiniGPT-4, menulis slogan pengiklanan untuk gambar menjadi sangat mudah. Minta MiniGPT-4 menulis salinan pengiklanan untuk cawan di sebelah kiri. MiniGPT-4 dengan tepat menunjukkan corak kucing mengantuk pada cawan, yang sangat sesuai untuk penggemar kopi dan pencinta kucing Ia juga menunjukkan bahan cawan, dll.:
.
MiniGPT-4 juga boleh menjana resipi berdasarkan gambar, menjadikan anda pakar dapur:
Terangkan meme popular:
Tulis puisi berdasarkan gambar:
Selain itu, perlu dinyatakan bahawa Demo MiniGPT-4 kini dibuka dan boleh dimainkan dalam talian Anda boleh mengalaminya sendiri ( Adalah disyorkan untuk menggunakan ujian Bahasa Inggeris):
Alamat demo: https:/ /0810e8582bcad31944.gradio.live/
Sejurus projek itu dikeluarkan, ia menarik perhatian meluas daripada netizen. Contohnya, biarkan MiniGPT-4 menerangkan objek dalam gambar:
Terdapat lebih banyak pengalaman ujian daripada netizen di bawah:
Pengenalan Kaedah
Pengarang Adalah dipercayai bahawa model bahasa besar termaju (LLM) GPT-4 adalah sebab utama keupayaan penjanaan pelbagai mod termajunya. Untuk mengkaji fenomena ini, penulis mencadangkan MiniGPT-4, yang menggunakan lapisan unjuran untuk menyelaraskan pengekod visual beku dan LLM beku (Vicuna).
MiniGPT-4 terdiri daripada pengekod visual ViT dan Q-Bekas terlatih, lapisan unjuran linear yang berasingan dan model bahasa besar Vicuna termaju. MiniGPT-4 hanya memerlukan latihan lapisan linear untuk menyelaraskan ciri visual dengan Vicuna.
MiniGPT-4 telah dilatih dalam dua peringkat. Peringkat pra-latihan tradisional pertama mengambil masa 10 jam untuk melatih pada 4 GPU A100 menggunakan kira-kira 5 juta pasangan teks imej yang dijajarkan. Selepas peringkat pertama, Vicuna dapat memahami imej. Tetapi kebolehan penjanaan teks Vicuna sangat terjejas.
Untuk menyelesaikan masalah ini dan meningkatkan kebolehgunaan, para penyelidik mencadangkan cara baharu untuk mencipta pasangan teks imej berkualiti tinggi melalui model itu sendiri dan ChatGPT. Berdasarkan ini, kajian itu mencipta set data yang kecil tetapi berkualiti tinggi (jumlahnya 3500 pasang).
Peringkat penalaan halus kedua dilatih pada set data ini menggunakan templat perbualan untuk meningkatkan kebolehpercayaan penjanaan dan kebolehgunaan keseluruhannya dengan ketara. Peringkat ini cekap dari segi pengiraan dan hanya memerlukan A100GPU dalam kira-kira 7 minit untuk diselesaikan.
Kerja berkaitan lain:
- VisualGPT: https://github.com/Vision-CAIR/VisualGPT
- ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner
Selain itu, perpustakaan kod sumber terbuka termasuk BLIP2 juga digunakan dalam projek itu, Lavis dan Vicuna.
Atas ialah kandungan terperinci 'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Menggunakan OpenSSL untuk Pengesahan Tandatangan Digital pada Sistem Debian, anda boleh mengikuti langkah -langkah berikut: Penyediaan untuk memasang OpenSSL: Pastikan sistem Debian anda telah dipasang. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasangnya: sudoaptdateudoaptininstallopenssl untuk mendapatkan kunci awam: Pengesahan tandatangan digital memerlukan kunci awam penandatangan. Biasanya, kunci awam akan disediakan dalam bentuk fail, seperti public_key.pe

Langkah -langkah untuk memasang sijil SSL pada pelayan mel Debian adalah seperti berikut: 1. Pasang OpenSSL Toolkit terlebih dahulu, pastikan bahawa OpenSSL Toolkit telah dipasang pada sistem anda. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasang: sudoapt-getupdateudoapt-getinstallopenssl2. Menjana permintaan kunci dan sijil peribadi seterusnya, gunakan OpenSSL untuk menjana kunci peribadi RSA 2048-bit dan permintaan sijil (CSR): Membuka

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

Menguruskan Log Hadoop pada Debian, anda boleh mengikuti langkah-langkah berikut dan amalan terbaik: Agregasi log membolehkan pengagregatan log: tetapkan benang.log-agregasi-enable untuk benar dalam fail benang-site.xml untuk membolehkan pengagregatan log. Konfigurasikan dasar pengekalan log: tetapkan yarn.log-aggregasi.Retain-seconds Untuk menentukan masa pengekalan log, seperti 172800 saat (2 hari). Nyatakan Laluan Penyimpanan Log: Melalui Benang
