MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.-AI-php.cn

Rumah

Peranti teknologi

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

PHPz

Oct 17, 2023 pm 02:41 PM

ai data

Beberapa bulan yang lalu, beberapa penyelidik dari KAUST (Universiti Sains dan Teknologi Raja Abdullah, Arab Saudi) mencadangkan kaedah yang dipanggil #🎜🎜 ## 🎜🎜#MiniGPT-4 projek, yang boleh memberikan pemahaman imej dan keupayaan dialog yang serupa dengan GPT-4.

Sebagai contoh, MiniGPT-4 boleh menjawab adegan dalam gambar di bawah: "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat hablur ais yang besar di sekeliling kaktus. Terdapat puncak yang dilitupi salji di kejauhan..." Jika anda bertanya, bolehkah adegan seperti ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya. Hanya beberapa bulan berlalu Baru-baru ini, pasukan KAUST dan penyelidik dari Meta mengumumkan bahawa mereka akan MiniGPT-4 telah dinaik taraf dengan ketara kepada versi MiniGPT-v2.

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Alamat kertas: https://arxiv.org/pdf/2310.09478.pdf#🎜🎜 🎜#

Halaman utama kertas: https://minigpt-v2.github.io/

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4. Demo: https://minigpt-v2 .github.io/

Secara khusus, MiniGPT-v2 boleh berfungsi sebagai antara muka bersatu untuk mengendalikan pelbagai tugas visual-linguistik dengan lebih baik. Pada masa yang sama, artikel ini mengesyorkan menggunakan simbol pengenalan unik untuk tugasan yang berbeza apabila melatih model ini simbol pengenalan membantu model membezakan setiap arahan tugasan dan meningkatkan kecekapan pembelajaran setiap model tugasan.

Untuk menilai prestasi model MiniGPT-v2, para penyelidik menjalankan eksperimen yang meluas pada tugas visual-linguistik yang berbeza. Keputusan menunjukkan bahawa MiniGPT-v2 mencapai prestasi SOTA atau setanding pada pelbagai penanda aras berbanding model tujuan umum bahasa penglihatan sebelumnya seperti MiniGPT-4, InstructBLIP, LLaVA dan Shikra. Contohnya, MiniGPT-v2 mengatasi MiniGPT-4 sebanyak 21.3%, InstructBLIP sebanyak 11.3% dan LLaVA sebanyak 11.7% pada penanda aras VSR.

Di bawah kami menggunakan contoh khusus untuk menggambarkan peranan simbol pengenalan MiniGPT-v2.

Sebagai contoh, dengan menambahkan simbol pengecaman [grounding], model boleh menjana penerangan imej dengan mudah dengan kesedaran lokasi spatial:

# 🎜 🎜#

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Dengan menambahkan simbol pengecaman [pengesanan], model boleh mengekstrak objek secara langsung dalam teks input dan mencari kedudukan spatialnya dalam gambar: #🎜🎜 #

Bingkai objek dalam gambar Dengan menambah [mengenal pasti], model boleh mengenal pasti secara langsung nama objek: #. 🎜 🎜#

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Dengan menambahkan [rujuk] dan penerangan objek, model secara langsung boleh membantu anda mencari kedudukan spatial objek yang sepadan:

# 🎜🎜#

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4. Anda juga boleh berbual dengan gambar tanpa menambah sebarang pengecaman tugas:

#🎜 #

Persepsi spatial model juga semakin kuat Anda boleh terus bertanya kepada model yang muncul di kiri, tengah dan kanan gambar: MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4. #. 🎜🎜## 🎜🎜#

Pengenalan kaedah MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

#🎜🎜 ditunjukkan dalam seni bina MinGP##🎜🎜 rajah di bawah, yang terdiri daripada tiga bahagian: Tulang belakang visual, lapisan unjuran linear dan model bahasa besar.

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Tulang belakang visual: MiniGPT-v2 menggunakan EVA sebagai model tulang belakang, dan tulang belakang visual dibekukan semasa latihan. Model ini dilatih pada resolusi imej 448x448 dan pengekodan kedudukan dimasukkan mengikut skala kepada resolusi imej yang lebih tinggi.

Lapisan unjuran linear: Artikel ini bertujuan untuk menayangkan semua token visual daripada tulang belakang visual beku ke dalam ruang model bahasa. Walau bagaimanapun, untuk imej peleraian lebih tinggi (cth. 448x448), menayangkan semua token imej menghasilkan input jujukan yang sangat panjang (cth. 1024 token), mengurangkan kecekapan latihan dan inferens dengan ketara. Oleh itu, kertas kerja ini hanya menggabungkan 4 token visual bersebelahan dalam ruang benam dan menayangkannya bersama-sama menjadi satu benam dalam ruang ciri yang sama bagi model bahasa yang besar, dengan itu mengurangkan bilangan token input visual dengan faktor 4.

Model bahasa berskala besar: MiniGPT-v2 menggunakan sumber terbuka LLaMA2-chat (7B) sebagai tulang belakang model bahasa. Dalam penyelidikan ini, model bahasa dianggap sebagai antara muka bersatu untuk pelbagai input bahasa visual. Artikel ini secara langsung menggunakan token bahasa LLaMA-2 untuk melaksanakan pelbagai tugas bahasa visual. Untuk tugas penglihatan asas yang memerlukan penjanaan lokasi spatial, makalah ini secara langsung memerlukan model bahasa untuk menjana perwakilan teks kotak sempadan untuk mewakili lokasi spatial mereka.

Latihan arahan berbilang tugas

Artikel ini menggunakan arahan simbolik pengecaman tugas untuk melatih model, yang dibahagikan kepada tiga peringkat. Set data yang digunakan dalam setiap peringkat latihan ditunjukkan dalam Jadual 2.

MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Fasa 1: Pra-latihan. Kertas ini memberikan kadar persampelan yang tinggi kepada set data berlabel lemah untuk mendapatkan pengetahuan yang lebih pelbagai.

Fasa 2: Latihan pelbagai tugas. Untuk meningkatkan prestasi MiniGPT-v2 pada setiap tugasan, peringkat semasa hanya memfokuskan pada penggunaan set data terperinci untuk melatih model. Para penyelidik mengecualikan set data yang diselia dengan lemah seperti GRIT-20M dan LAION dari peringkat-1 dan mengemas kini nisbah pensampelan data mengikut kekerapan setiap tugas. Strategi ini membolehkan model kami mengutamakan data teks imej sejajar berkualiti tinggi, menghasilkan prestasi unggul merentas pelbagai tugas.

Fasa 3: Penalaan arahan berbilang modal. Selepas itu, kertas kerja ini memberi tumpuan kepada menggunakan lebih banyak set data arahan multimodal untuk memperhalusi model dan meningkatkan keupayaan perbualannya sebagai chatbot. . akan dapat mengenal pasti belon merah dalam gambar :

Pembaca yang berminat boleh menyemak halaman utama kertas untuk maklumat lanjut. MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.

Atas ialah kandungan terperinci MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Apakah kaedah penalaan prestasi zookeeper di CentOS Apr 14, 2025 pm 03:18 PM

Penalaan prestasi zookeeper pada centOs boleh bermula dari pelbagai aspek, termasuk konfigurasi perkakasan, pengoptimuman sistem operasi, pelarasan parameter konfigurasi, pemantauan dan penyelenggaraan, dan lain -lain. Memori yang cukup: memperuntukkan sumber memori yang cukup untuk zookeeper untuk mengelakkan cakera kerap membaca dan menulis. CPU multi-teras: Gunakan CPU multi-teras untuk memastikan bahawa zookeeper dapat memprosesnya selari.

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

CentOS8 memulakan semula SSH Apr 14, 2025 pm 09:00 PM

Perintah untuk memulakan semula perkhidmatan SSH ialah: Sistem Restart SSHD. Langkah -langkah terperinci: 1. Akses terminal dan sambungkan ke pelayan; 2. Masukkan arahan: SistemCtl Restart SSHD; 3. Sahkan Status Perkhidmatan: Status Sistem SSHD.

See all articles