'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.-AI-php.cn

Jadual Kandungan

MiniGPT-4 memudahkan untuk bercakap hanya dengan melihat gambar

Rumah

'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 24, 2023 am 11:16 AM

ai gpt

Bagi manusia, memahami maklumat sesuatu gambar tidak lebih daripada perkara remeh-temeh. Sama seperti gambar di bawah, pengecas yang dipasangkan telefon agak tidak sesuai. Manusia boleh melihat masalah itu sepintas lalu, tetapi untuk AI, ia masih sangat sukar.

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Kemunculan GPT-4 telah mula memudahkan masalah ini dengan cepat menunjukkan masalah dalam gambar: Kabel VGA mengecas iPhone .

Sebenarnya, daya tarikan GPT-4 jauh lebih kurang daripada ini. Apa yang lebih mengujakan ialah menggunakan lakaran yang dilukis dengan tangan untuk terus menjana laman web, melukis gambar rajah yang diconteng. kertas gores, ambil foto, dan kemudian hantarkannya Berikan GPT-4 dan biarkan ia menulis kod tapak web mengikut rajah Whoosh, GPT-4 menulis kod halaman web.

Tetapi malangnya, fungsi GPT-4 ini belum dibuka kepada orang ramai, dan adalah mustahil untuk memulakan dan mengalaminya. Walau bagaimanapun, sesetengah orang tidak sabar lagi, dan pasukan dari Universiti Sains dan Teknologi Raja Abdullah (KAUST) telah membangunkan produk yang serupa dengan GPT-4 - MiniGPT-4. Penyelidik pasukan termasuk Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang dan Mohamed H. Elhoseiny, yang kesemuanya adalah daripada kumpulan penyelidikan Vision-CAIR KAUST.

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Alamat kertas: https://github.com/Vision-CAIR/MiniGPT- 4/blob/main/MiniGPT_4.pdf
Halaman utama kertas: https://minigpt-4.github.io/
Alamat kod: https://github.com/Vision-CAIR/MiniGPT-4

Paparan MiniGPT-4 Ia menawarkan banyak keupayaan seperti GPT-4, seperti menjana penerangan imej terperinci dan mencipta tapak web daripada draf tulisan tangan. Selain itu, pengarang memerhatikan keupayaan lain yang muncul dari MiniGPT-4, termasuk mencipta cerita dan puisi berdasarkan imej yang diberikan, menyediakan penyelesaian kepada masalah yang ditunjukkan dalam imej, mengajar pengguna cara memasak berdasarkan foto makanan, dsb.

MiniGPT-4 memudahkan untuk bercakap hanya dengan melihat gambar

Sejauh manakah MiniGPT-4 berkesan? Mari kita mulakan dengan beberapa contoh. Di samping itu, untuk mendapatkan pengalaman yang lebih baik dengan MiniGPT-4, adalah disyorkan untuk menggunakan input bahasa Inggeris untuk ujian.

Pertama, mari kita periksa keupayaan MiniGPT-4 untuk menerangkan imej. Untuk gambar di sebelah kiri, jawapan yang diberikan oleh MiniGPT-4 adalah kira-kira "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat kristal ais yang besar di sekeliling kaktus, dan terdapat puncak yang dilitupi salji di kejauhan... "Jika anda bertanya seterusnya Bolehkah senario ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya.

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Seterusnya, mari kita lihat keupayaan soalan dan jawapan imej MiniGPT-4. Soalan: "Apa yang salah dengan tumbuhan ini? Apa yang perlu saya lakukan?" MiniGPT-4 bukan sahaja menunjukkan masalah, tetapi juga menyatakan bahawa daun dengan bintik coklat mungkin disebabkan oleh jangkitan kulat, dan memberi langkah rawatan:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Melihat beberapa contoh, fungsi sembang gambar MiniGPT-4 sudah sangat berkuasa. Bukan itu sahaja, malah MiniGPT-4 boleh membuat laman web daripada lakaran. Sebagai contoh, biarkan MiniGPT-4 melukis halaman web mengikut draf rajah di sebelah kiri Selepas menerima arahan, MiniGPT-4 memberikan kod HTML yang sepadan dan tapak web yang sepadan seperti yang diperlukan:

<.>

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Dengan MiniGPT-4, menulis slogan pengiklanan untuk gambar menjadi sangat mudah. Minta MiniGPT-4 menulis salinan pengiklanan untuk cawan di sebelah kiri. MiniGPT-4 dengan tepat menunjukkan corak kucing mengantuk pada cawan, yang sangat sesuai untuk penggemar kopi dan pencinta kucing Ia juga menunjukkan bahan cawan, dll.:

. MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

MiniGPT-4 juga boleh menjana resipi berdasarkan gambar, menjadikan anda pakar dapur:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Terangkan meme popular:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Tulis puisi berdasarkan gambar:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Selain itu, perlu dinyatakan bahawa Demo MiniGPT-4 kini dibuka dan boleh dimainkan dalam talian Anda boleh mengalaminya sendiri ( Adalah disyorkan untuk menggunakan ujian Bahasa Inggeris):

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Alamat demo: https:/ /0810e8582bcad31944.gradio.live/

Sejurus projek itu dikeluarkan, ia menarik perhatian meluas daripada netizen. Contohnya, biarkan MiniGPT-4 menerangkan objek dalam gambar:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Terdapat lebih banyak pengalaman ujian daripada netizen di bawah:

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

Pengenalan Kaedah

Pengarang Adalah dipercayai bahawa model bahasa besar termaju (LLM) GPT-4 adalah sebab utama keupayaan penjanaan pelbagai mod termajunya. Untuk mengkaji fenomena ini, penulis mencadangkan MiniGPT-4, yang menggunakan lapisan unjuran untuk menyelaraskan pengekod visual beku dan LLM beku (Vicuna).

MiniGPT-4 terdiri daripada pengekod visual ViT dan Q-Bekas terlatih, lapisan unjuran linear yang berasingan dan model bahasa besar Vicuna termaju. MiniGPT-4 hanya memerlukan latihan lapisan linear untuk menyelaraskan ciri visual dengan Vicuna.

MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.

MiniGPT-4 telah dilatih dalam dua peringkat. Peringkat pra-latihan tradisional pertama mengambil masa 10 jam untuk melatih pada 4 GPU A100 menggunakan kira-kira 5 juta pasangan teks imej yang dijajarkan. Selepas peringkat pertama, Vicuna dapat memahami imej. Tetapi kebolehan penjanaan teks Vicuna sangat terjejas.

Untuk menyelesaikan masalah ini dan meningkatkan kebolehgunaan, para penyelidik mencadangkan cara baharu untuk mencipta pasangan teks imej berkualiti tinggi melalui model itu sendiri dan ChatGPT. Berdasarkan ini, kajian itu mencipta set data yang kecil tetapi berkualiti tinggi (jumlahnya 3500 pasang).

Peringkat penalaan halus kedua dilatih pada set data ini menggunakan templat perbualan untuk meningkatkan kebolehpercayaan penjanaan dan kebolehgunaan keseluruhannya dengan ketara. Peringkat ini cekap dari segi pengiraan dan hanya memerlukan A100GPU dalam kira-kira 7 minit untuk diselesaikan.

Kerja berkaitan lain:

VisualGPT: https://github.com/Vision-CAIR/VisualGPT
ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

Selain itu, perpustakaan kod sumber terbuka termasuk BLIP2 juga digunakan dalam projek itu, Lavis dan Vicuna.

Atas ialah kandungan terperinci 'MiniGPT-4 membuktikan keupayaan pengecaman imej yang menakjubkan dan pelbagai fungsi: berbual dengan imej, membina laman web dengan lakaran, dsb.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7542

Tutorial CakePHP

1381

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Petua Konfigurasi Firewall Pelayan Mel Debian Apr 13, 2025 am 11:42 AM

Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Apr 13, 2025 am 09:42 AM

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Cara Melakukan Pengesahan Tandatangan Digital dengan Debian Openssl Apr 13, 2025 am 11:09 AM

Menggunakan OpenSSL untuk Pengesahan Tandatangan Digital pada Sistem Debian, anda boleh mengikuti langkah -langkah berikut: Penyediaan untuk memasang OpenSSL: Pastikan sistem Debian anda telah dipasang. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasangnya: sudoaptdateudoaptininstallopenssl untuk mendapatkan kunci awam: Pengesahan tandatangan digital memerlukan kunci awam penandatangan. Biasanya, kunci awam akan disediakan dalam bentuk fail, seperti public_key.pe

Kaedah pemasangan sijil SSL Server Server Debian Apr 13, 2025 am 11:39 AM

Langkah -langkah untuk memasang sijil SSL pada pelayan mel Debian adalah seperti berikut: 1. Pasang OpenSSL Toolkit terlebih dahulu, pastikan bahawa OpenSSL Toolkit telah dipasang pada sistem anda. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasang: sudoapt-getupdateudoapt-getinstallopenssl2. Menjana permintaan kunci dan sijil peribadi seterusnya, gunakan OpenSSL untuk menjana kunci peribadi RSA 2048-bit dan permintaan sijil (CSR): Membuka

Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Apr 13, 2025 am 10:30 AM

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

Cara Melakukan Pengurusan Log Debian Hadoop Apr 13, 2025 am 10:45 AM

Menguruskan Log Hadoop pada Debian, anda boleh mengikuti langkah-langkah berikut dan amalan terbaik: Agregasi log membolehkan pengagregatan log: tetapkan benang.log-agregasi-enable untuk benar dalam fail benang-site.xml untuk membolehkan pengagregatan log. Konfigurasikan dasar pengekalan log: tetapkan yarn.log-aggregasi.Retain-seconds Untuk menentukan masa pengekalan log, seperti 172800 saat (2 hari). Nyatakan Laluan Penyimpanan Log: Melalui Benang

See all articles