Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China-AI-php.cn

Jadual Kandungan

Secara ringkasnya, MiniGPT-v2 terdiri daripada tiga bahagian: tulang belakang visual, lapisan linear dan model bahasa besar.

Rumah

Peranti teknologi

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

PHPz

Oct 19, 2023 am 11:13 AM

ai Model

GPT-4V untuk pengesanan sasaran? Ujian sebenar oleh netizen: Belum bersedia lagi.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Walaupun kategori yang dikesan baik-baik saja, kebanyakan kotak sempadan tersasar.

Tidak mengapa, seseorang akan mengambil tindakan!

Mini GPT-4 yang mengalahkan GPT-4 dalam keupayaan melihat imej selama beberapa bulan telah dinaik taraf - MiniGPT-v2. .

Bukan itu sahaja, ia juga boleh mengendalikan pelbagai tugas visual dengan mudah.

Bulatkan objek dan tambah [mengenal pasti] di hadapan perkataan gesaan untuk membolehkan model mengenal pasti nama objek secara langsung.

Sudah tentu, anda juga boleh menambah apa-apa dan bertanya terus~

MiniGPT-v2 terdiri daripada pasukan asal dari MiniGPT-4 (Universiti Sains dan Teknologi KAUST Raja Abdullah di Arab Saudi) dan lima penyelidik dari pembangunan bersama Meta.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Kali terakhir MiniGPT-4 menarik perhatian besar apabila ia keluar, dan pelayan terharu buat seketika Kini projek GitHub telah melebihi 22,000+ bintang.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Dengan peningkatan ini, sesetengah netizen sudah mula menggunakannya~

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Antara muka universal untuk pelbagai tugas visual

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Sebagai antara muka universal untuk pelbagai aplikasi teks, semua orang telah terbiasa dengannya. Diilhamkan oleh ini, pasukan penyelidik ingin membina antara muka bersatu yang boleh digunakan untuk pelbagai tugas visual, seperti penerangan imej, jawapan soalan visual, dsb.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China "Bagaimana cara menggunakan arahan berbilang modal yang mudah untuk menyelesaikan pelbagai tugas dengan cekap di bawah keadaan satu model telah menjadi masalah yang perlu diselesaikan oleh pasukan?"

Secara ringkasnya, MiniGPT-v2 terdiri daripada tiga bahagian: tulang belakang visual, lapisan linear dan model bahasa besar.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China Model ini berdasarkan tulang belakang visual ViT dan kekal tidak berubah dalam semua peringkat latihan. Empat token output visual bersebelahan diinduksi daripada ViT dan diunjurkan ke dalam ruang model bahasa LLaMA-2 melalui lapisan linear.

Pasukan mengesyorkan menggunakan pengecam unik untuk tugasan berbeza dalam model latihan, supaya model besar boleh membezakan setiap arahan tugas dengan mudah dan meningkatkan kecekapan pembelajaran setiap tugas.

Latihan terbahagi kepada tiga peringkat: pra-latihan - latihan pelbagai tugas - pelarasan arahan berbilang mod.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pada akhirnya, MiniGPT-v2 mengatasi model umum bahasa visual yang lain dalam banyak jawapan soalan visual dan tanda aras asas visual.

Akhirnya, model ini boleh menyelesaikan pelbagai tugas visual, seperti penerangan objek sasaran, penyetempatan visual, penerangan imej, jawapan soalan visual, dan menghuraikan terus objek imej daripada teks input yang diberikan.

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Rakan-rakan yang berminat boleh klik pada pautan Demo di bawah untuk merasainya:

Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

https://minigpt-v2.github.io/

https://huggingface.co/spaces/Vision-CAIR/ MiniGPT -v2 Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China

Pautan kertas: https://arxiv.org/abs/2310.09478

pautanGitHub: https://github.com/Vision-CAIR/MiniGPT-4

Atas ialah kandungan terperinci Keupayaan visual mini GPT-4 yang sangat popular telah melonjak, dengan 20,000 bintang di GitHub, dihasilkan oleh pasukan China. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7569

Tutorial CakePHP

1386

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

108

Tunjukkan Lagi

Related knowledge

Cara menentukan fail header untuk vscode Apr 15, 2025 pm 09:09 PM

Bagaimana untuk menentukan fail header menggunakan kod Visual Studio? Buat fail header dan mengisytiharkan simbol dalam fail header menggunakan nama sufiks .h atau .hpp (seperti kelas, fungsi, pembolehubah) menyusun program menggunakan arahan #include untuk memasukkan fail header dalam fail sumber. Fail header akan dimasukkan dan simbol yang diisytiharkan tersedia.

Adakah anda menggunakan C dalam Kod Visual Studio Apr 15, 2025 pm 08:03 PM

Menulis C dalam kod VS bukan sahaja boleh dilaksanakan, tetapi juga cekap dan elegan. Kuncinya adalah untuk memasang sambungan C/C yang sangat baik, yang menyediakan fungsi seperti penyelesaian kod, penonjolan sintaks, dan debugging. Keupayaan debugging Vs Code membantu anda dengan cepat mencari pepijat, manakala output Printf adalah kaedah debugging yang lama tetapi berkesan. Di samping itu, apabila peruntukan memori dinamik, nilai pulangan perlu diperiksa dan memori dibebaskan untuk mengelakkan kebocoran memori, dan menyahpepijat isu -isu ini mudah dalam kod VS. Walaupun kod VS tidak dapat membantu secara langsung dengan pengoptimuman prestasi, ia menyediakan persekitaran pembangunan yang baik untuk analisis mudah prestasi kod. Tabiat pengaturcaraan yang baik, kebolehbacaan dan penyelenggaraan juga penting. Bagaimanapun, kod vs adalah

Docker menggunakan Yaml Apr 15, 2025 am 07:21 AM

YAML digunakan untuk mengkonfigurasi bekas, imej, dan perkhidmatan untuk Docker. Untuk mengkonfigurasi: Untuk bekas, tentukan nama, imej, pelabuhan, dan pembolehubah persekitaran dalam docker-compose.yml. Untuk imej, imej asas, membina arahan, dan arahan lalai disediakan dalam Dockerfile. Untuk perkhidmatan, tetapkan nama, cermin, port, kelantangan, dan pembolehubah persekitaran dalam docker-service.yml.

Platform Docker apa yang digunakan untuk menguruskan imej awam Apr 15, 2025 am 07:06 AM

Platform Hosting Imej Docker digunakan untuk mengurus dan menyimpan imej Docker, menjadikannya mudah bagi pemaju dan pengguna untuk mengakses dan menggunakan persekitaran perisian prebuilt. Platform biasa termasuk: Docker Hub: Dikekalkan secara rasmi oleh Docker dan mempunyai perpustakaan cermin yang besar. GitHub Container Registry: Mengintegrasikan ekosistem GitHub. Registry Container Google: Dihoskan oleh Google Cloud Platform. Registry Container Elastik Amazon: Dihoskan oleh AWS. Quay.io: oleh Red Hat

Apakah teknologi asas yang digunakan oleh Docker? Apr 15, 2025 am 07:09 AM

Docker menggunakan enjin kontena, format cermin, pemacu penyimpanan, model rangkaian, alat orkestrasi kontena, virtualisasi sistem operasi, dan pendaftaran kontena untuk menyokong keupayaan kontenanya, menyediakan penggunaan dan pengurusan aplikasi yang ringan, mudah alih dan automatik.

Mana yang lebih baik, vscode atau studio visual Apr 15, 2025 pm 08:36 PM

Bergantung pada keperluan khusus dan saiz projek, pilih IDE yang paling sesuai: Projek Besar (terutamanya C#, C) dan Debugging Kompleks: Visual Studio, yang menyediakan keupayaan debugging yang kuat dan sokongan sempurna untuk projek besar. Projek -projek kecil, prototaip pesat, mesin konfigurasi rendah: VS kod, ringan, kelajuan permulaan yang cepat, penggunaan sumber yang rendah, dan skalabiliti yang sangat tinggi. Akhirnya, dengan mencuba dan mengalami VS Code dan Visual Studio, anda boleh mencari penyelesaian terbaik untuk anda. Anda juga boleh mempertimbangkan menggunakan kedua -duanya untuk hasil yang terbaik.

Boleh vscode run kotlin Apr 15, 2025 pm 06:57 PM

Running Kotlin dalam kod VS memerlukan konfigurasi persekitaran berikut: Kit Pembangunan Java (JDK) dan Kotlin Compiler Kotlin yang berkaitan dengan Plugin (seperti Kotlin Language dan Kotlin Extension for VS Code) Buat fail Kotlin dan menjalankan kod untuk ujian untuk memastikan Konfigurasi Alam Sekitar berjaya

Cara membina vscode c Apr 15, 2025 pm 05:03 PM

VS Kod menyediakan persekitaran pembangunan C yang kuat yang meningkatkan kecekapan pembangunan. Apabila mengkonfigurasi, anda perlu memberi perhatian kepada masalah jalan, kebocoran memori dan pengurusan ketergantungan. Kelebihan termasuk ekosistem lanjutan, keupayaan pengeditan kod yang sangat baik, dan debuggers bersepadu, sementara keburukan adalah kebergantungan dan penggunaan sumber.

See all articles