


MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.
Beberapa bulan yang lalu, beberapa penyelidik dari KAUST (Universiti Sains dan Teknologi Raja Abdullah, Arab Saudi) mencadangkan kaedah yang dipanggil #🎜🎜 ## 🎜🎜#MiniGPT-4 projek, yang boleh memberikan pemahaman imej dan keupayaan dialog yang serupa dengan GPT-4.
Sebagai contoh, MiniGPT-4 boleh menjawab adegan dalam gambar di bawah: "Gambar menggambarkan kaktus yang tumbuh di tasik beku. Terdapat hablur ais yang besar di sekeliling kaktus. Terdapat puncak yang dilitupi salji di kejauhan..." Jika anda bertanya, bolehkah adegan seperti ini berlaku di dunia nyata? Jawapan yang diberikan oleh MiniGPT-4 ialah imej ini tidak biasa di dunia nyata dan sebabnya. Hanya beberapa bulan berlalu Baru-baru ini, pasukan KAUST dan penyelidik dari Meta mengumumkan bahawa mereka akan MiniGPT-4 telah dinaik taraf dengan ketara kepada versi MiniGPT-v2.
Halaman utama kertas: https://minigpt-v2.github.io/
Demo: https://minigpt-v2 .github.io/
Secara khusus, MiniGPT-v2 boleh berfungsi sebagai antara muka bersatu untuk mengendalikan pelbagai tugas visual-linguistik dengan lebih baik. Pada masa yang sama, artikel ini mengesyorkan menggunakan simbol pengenalan unik untuk tugasan yang berbeza apabila melatih model ini simbol pengenalan membantu model membezakan setiap arahan tugasan dan meningkatkan kecekapan pembelajaran setiap model tugasan.
Untuk menilai prestasi model MiniGPT-v2, para penyelidik menjalankan eksperimen yang meluas pada tugas visual-linguistik yang berbeza. Keputusan menunjukkan bahawa MiniGPT-v2 mencapai prestasi SOTA atau setanding pada pelbagai penanda aras berbanding model tujuan umum bahasa penglihatan sebelumnya seperti MiniGPT-4, InstructBLIP, LLaVA dan Shikra. Contohnya, MiniGPT-v2 mengatasi MiniGPT-4 sebanyak 21.3%, InstructBLIP sebanyak 11.3% dan LLaVA sebanyak 11.7% pada penanda aras VSR.
Di bawah kami menggunakan contoh khusus untuk menggambarkan peranan simbol pengenalan MiniGPT-v2.
Sebagai contoh, dengan menambahkan simbol pengecaman [grounding], model boleh menjana penerangan imej dengan mudah dengan kesedaran lokasi spatial:
# 🎜 🎜#Dengan menambahkan simbol pengecaman [pengesanan], model boleh mengekstrak objek secara langsung dalam teks input dan mencari kedudukan spatialnya dalam gambar: #🎜🎜 #
Bingkai objek dalam gambar Dengan menambah [mengenal pasti], model boleh mengenal pasti secara langsung nama objek: #. 🎜 🎜#
# 🎜🎜#
Anda juga boleh berbual dengan gambar tanpa menambah sebarang pengecaman tugas:
#🎜 #
Persepsi spatial model juga semakin kuat Anda boleh terus bertanya kepada model yang muncul di kiri, tengah dan kanan gambar: #. 🎜🎜## 🎜🎜#
Pengenalan kaedah
#🎜🎜 ditunjukkan dalam seni bina MinGP##🎜🎜 rajah di bawah, yang terdiri daripada tiga bahagian: Tulang belakang visual, lapisan unjuran linear dan model bahasa besar.
Tulang belakang visual: MiniGPT-v2 menggunakan EVA sebagai model tulang belakang, dan tulang belakang visual dibekukan semasa latihan. Model ini dilatih pada resolusi imej 448x448 dan pengekodan kedudukan dimasukkan mengikut skala kepada resolusi imej yang lebih tinggi.
Lapisan unjuran linear: Artikel ini bertujuan untuk menayangkan semua token visual daripada tulang belakang visual beku ke dalam ruang model bahasa. Walau bagaimanapun, untuk imej peleraian lebih tinggi (cth. 448x448), menayangkan semua token imej menghasilkan input jujukan yang sangat panjang (cth. 1024 token), mengurangkan kecekapan latihan dan inferens dengan ketara. Oleh itu, kertas kerja ini hanya menggabungkan 4 token visual bersebelahan dalam ruang benam dan menayangkannya bersama-sama menjadi satu benam dalam ruang ciri yang sama bagi model bahasa yang besar, dengan itu mengurangkan bilangan token input visual dengan faktor 4.
Model bahasa berskala besar: MiniGPT-v2 menggunakan sumber terbuka LLaMA2-chat (7B) sebagai tulang belakang model bahasa. Dalam penyelidikan ini, model bahasa dianggap sebagai antara muka bersatu untuk pelbagai input bahasa visual. Artikel ini secara langsung menggunakan token bahasa LLaMA-2 untuk melaksanakan pelbagai tugas bahasa visual. Untuk tugas penglihatan asas yang memerlukan penjanaan lokasi spatial, makalah ini secara langsung memerlukan model bahasa untuk menjana perwakilan teks kotak sempadan untuk mewakili lokasi spatial mereka.
Latihan arahan berbilang tugas
Artikel ini menggunakan arahan simbolik pengecaman tugas untuk melatih model, yang dibahagikan kepada tiga peringkat. Set data yang digunakan dalam setiap peringkat latihan ditunjukkan dalam Jadual 2.
Fasa 1: Pra-latihan. Kertas ini memberikan kadar persampelan yang tinggi kepada set data berlabel lemah untuk mendapatkan pengetahuan yang lebih pelbagai.
Fasa 2: Latihan pelbagai tugas. Untuk meningkatkan prestasi MiniGPT-v2 pada setiap tugasan, peringkat semasa hanya memfokuskan pada penggunaan set data terperinci untuk melatih model. Para penyelidik mengecualikan set data yang diselia dengan lemah seperti GRIT-20M dan LAION dari peringkat-1 dan mengemas kini nisbah pensampelan data mengikut kekerapan setiap tugas. Strategi ini membolehkan model kami mengutamakan data teks imej sejajar berkualiti tinggi, menghasilkan prestasi unggul merentas pelbagai tugas.
Fasa 3: Penalaan arahan berbilang modal. Selepas itu, kertas kerja ini memberi tumpuan kepada menggunakan lebih banyak set data arahan multimodal untuk memperhalusi model dan meningkatkan keupayaan perbualannya sebagai chatbot. . akan dapat mengenal pasti belon merah dalam gambar :
Pembaca yang berminat boleh menyemak halaman utama kertas untuk maklumat lanjut.
Atas ialah kandungan terperinci MiniGPT-4 telah dinaik taraf kepada MiniGPT-v2 tugasan berbilang modal masih boleh diselesaikan tanpa GPT-4.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Penalaan prestasi zookeeper pada centOs boleh bermula dari pelbagai aspek, termasuk konfigurasi perkakasan, pengoptimuman sistem operasi, pelarasan parameter konfigurasi, pemantauan dan penyelenggaraan, dan lain -lain. Memori yang cukup: memperuntukkan sumber memori yang cukup untuk zookeeper untuk mengelakkan cakera kerap membaca dan menulis. CPU multi-teras: Gunakan CPU multi-teras untuk memastikan bahawa zookeeper dapat memprosesnya selari.

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

Perintah untuk memulakan semula perkhidmatan SSH ialah: Sistem Restart SSHD. Langkah -langkah terperinci: 1. Akses terminal dan sambungkan ke pelayan; 2. Masukkan arahan: SistemCtl Restart SSHD; 3. Sahkan Status Perkhidmatan: Status Sistem SSHD.
