Rumah

Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

PHPz

Apr 26, 2024 pm 05:00 PM

git industri penyuntingan video

Baru-baru ini, diketuai oleh Profesor Yan Shuicheng, Institut Penyelidikan Global Teknologi Kunlun 2050, Universiti Nasional Singapura, dan pasukan Universiti Teknologi Nanyang Singapura bersama-sama mengeluarkan dan bersumber terbuka Vitron sejagat tahap piksel visual model bahasa besar berbilang modal .

Ini ialah model besar multi-modal visual tugas berat yang menyokong satu siri tugasan visual daripada pemahaman visual kepada penjanaan visual, daripada tahap rendah ke tahap tinggi dan menyelesaikan masalah imej yang telah melanda model bahasa besar industri untuk jangka masa yang lama. meletakkan asas untuk model besar visual umum generasi seterusnya. Bentuk muktamad meletakkan asas dan menandakan satu lagi langkah besar ke arah kecerdasan buatan (AGI) umum untuk model besar. Vitron, sebagai model bahasa besar berbilang mod visual tahap piksel bersatu, mencapai sokongan menyeluruh untuk tugas visual daripada peringkat rendah ke peringkat tinggi ,

mampu mengendalikan tugas visual yang kompleks,

dan Fahami dan jana kandungan imej dan video, memberikan pemahaman visual yang kuat dan keupayaan pelaksanaan tugas. Pada masa yang sama, Vitron menyokong operasi berterusan dengan pengguna, membolehkan interaksi manusia-komputer yang fleksibel, menunjukkan potensi besar ke arah model universal multi-modal visual yang lebih bersatu. Kertas, kod dan tunjuk cara berkaitan Vitron semuanya telah

didedahkan kepada umum

Ia telah menunjukkan kelebihan dan potensi unik dari segi kelengkapan, inovasi teknologi, interaksi manusia-komputer dan potensi aplikasi hanya mempromosikan Ia bukan sahaja menggalakkan pembangunan model besar berbilang modal, tetapi juga menyediakan hala tuju baharu untuk penyelidikan model besar visual masa hadapan. Kunlun Wanwei 2050Institut Penyelidikan Global telah komited untuk membina

sebuah institusi penyelidikan saintifik yang cemerlang untuk dunia masa depan

, dan bekerjasama dengan komuniti saintifik untuk menyeberangi ”, terokai dunia yang tidak diketahui, cipta masa depan yang lebih baik. Sebelum ini, Kunlun Wanwei 2050Institut Penyelidikan Global telah mengeluarkan dan sumber terbuka kit alat penyelidikan dan pembangunan ejen digitalAgentStudio Pada masa hadapan, institut penyelidikan akan terus mempromosikan kecerdasan buatan. penemuan , menyumbang kepada pembinaan ekologi kecerdasan buatan China. Perkembangan semasa model bahasa besar visual (LLM) telah mencapai kemajuan yang memuaskan. Masyarakat semakin percaya bahawa membina model besar berbilang modal (MLLM) yang lebih umum dan berkuasa akan menjadi satu-satunya cara untuk mencapai kecerdasan buatan am (AGI). Walau bagaimanapun, masih terdapat beberapa cabaran utama dalam proses menuju ke arah model umum pelbagai modal (Generalis). Sebagai contoh, sebahagian besar kerja tidak mencapai pemahaman visual tahap piksel yang terperinci atau tidak mempunyai sokongan bersatu untuk imej dan video. Atau sokongan untuk pelbagai tugas visual tidak mencukupi, dan ia jauh dari model besar sejagat. Untuk mengisi jurang ini, baru-baru ini, Institut Penyelidikan Global Kunlun Worldwide 2050, Universiti Nasional Singapura, dan pasukan Universiti Teknologi Nanyang Singapura telah bersama-sama mengeluarkan model bahasa besar berbilang mod visual peringkat piksel universal sumber terbuka Vitron. . Vitron menyokong satu siri tugas visual daripada pemahaman visual kepada penjanaan visual, daripada tahap rendah kepada tahap tinggi, termasuk pemahaman komprehensif, penjanaan, pembahagian dan penyuntingan imej statik dan kandungan video dinamik. Vitron telah menerangkan secara komprehensif sokongan fungsian untuk empat tugas utama berkaitan penglihatan. dan kelebihan utamanya. Vitron juga menyokong operasi berterusan dengan pengguna untuk mencapai interaksi manusia-mesin yang fleksibel. Projek ini menunjukkan potensi besar untuk model am berbilang modal penglihatan yang lebih bersatu, meletakkan asas bagi bentuk muktamad model besar penglihatan am generasi seterusnya. Kertas, kod dan demo berkaitan Vitron kini semuanya terbuka.

Tajuk kertas: Vitron: Visi Tahap Pixel Bersatu LLM untuk Memahami, Menjana, Membahagikan, MengeditLaman utama projek & Demo: https://vitron-llm.github.io/

Pautan kertas: https:/ / is.gd/aGu0VV

Kod sumber terbuka: https://github.com/SkyworkAI/Vitron Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

1
model besar
yang besar
Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah menunjukkan kuasa yang tidak pernah berlaku sebelum ini, dan telah terbukti secara beransur-ansur sebagai laluan teknikal ke AGI. Model bahasa besar multimodal (MLLM) berkembang pesat dalam banyak komuniti dan muncul dengan pantas Dengan memperkenalkan modul yang boleh melakukan persepsi visual, LLM berasaskan bahasa tulen diperluaskan kepada MLLM yang hebat dan cemerlang dalam pemahaman imej. seperti BLIP-2, LLaVA, MiniGPT-4, dsb. Pada masa yang sama, MLLM yang memfokuskan pada pemahaman video juga telah dilancarkan, seperti VideoChat, Video-LLaMA, Video-LLaVA, dsb.

Seterusnya, penyelidik terutamanya cuba mengembangkan lagi keupayaan MLLM daripada dua dimensi. Di satu pihak, penyelidik cuba mendalami pemahaman MLLM tentang penglihatan, beralih daripada pemahaman peringkat contoh kasar kepada pemahaman terperinci imej peringkat piksel, dengan itu mencapai keupayaan kedudukan wilayah visual (Pembuatan Serantau), seperti GLaMM, PixelLM , NExT-Chat dan MiniGPT-v2 dsb. Sebaliknya, penyelidik cuba mengembangkan fungsi visual yang boleh disokong oleh MLLM. Beberapa penyelidikan telah mula mengkaji bagaimana MLLM bukan sahaja memahami isyarat visual input, tetapi juga menyokong penjanaan kandungan visual output. Contohnya, MLLM seperti GILL dan Emu boleh menjana kandungan imej secara fleksibel, dan GPT4Video dan NExT-GPT merealisasikan penjanaan video.

Pada masa ini, komuniti kecerdasan buatan telah secara beransur-ansur mencapai kata sepakat bahawa trend masa depan MLLM visual pasti akan berkembang ke arah keupayaan yang sangat bersatu dan lebih kukuh. Walau bagaimanapun, walaupun terdapat banyak MLLM yang dibangunkan oleh komuniti, jurang yang jelas masih wujud.
- Pertama sekali, Hampir semua LLM visual sedia ada menganggap imej dan video sebagai entiti yang berbeza dan sama ada hanya menyokong imej atau video sahaja. Para penyelidik berpendapat bahawa penglihatan harus merangkumi kedua-dua imej statik dan video dinamik-kedua-dua komponen teras dunia visual dan juga boleh ditukar ganti dalam kebanyakan senario. Oleh itu, adalah perlu untuk membina rangka kerja MLLM bersatu yang boleh menyokong modaliti imej dan video.
- Kedua, Pada masa ini sokongan MLLM untuk fungsi visual masih tidak mencukupi. Kebanyakan model hanya mampu memahami, atau paling banyak menghasilkan imej atau video. Penyelidik percaya bahawa MLLM masa depan haruslah model bahasa besar umum yang boleh merangkumi rangkaian tugas dan operasi visual yang lebih luas, mencapai sokongan bersatu untuk semua tugas berkaitan penglihatan dan mencapai keupayaan "satu untuk semua". Ini penting untuk aplikasi praktikal, terutamanya dalam penciptaan visual yang selalunya melibatkan satu siri operasi berulang dan interaktif. Sebagai contoh, pengguna biasanya bermula dengan teks dan menukar idea kepada kandungan visual melalui gambar rajah Vincent kemudian memperhalusi idea awal dan menambah lebih banyak butiran melalui penyuntingan imej yang lebih halus kemudian mencipta kandungan dinamik dengan menghasilkan video daripada imej; pusingan interaksi berulang, seperti penyuntingan video, untuk menyempurnakan penciptaan.
Jadual di atas hanya meringkaskan keupayaan MLLM visual sedia ada (hanya beberapa model disertakan secara representatif dan liputan tidak lengkap). Untuk merapatkan jurang ini, pasukan mencadangkan Vitron, MLLM visual peringkat piksel umum.

02 Seni bina sistem Vitron : tiga modul utama

Rangka kerja keseluruhan Vitron ditunjukkan dalam rajah di bawah. Vitron menggunakan seni bina yang serupa dengan MLLM berkaitan sedia ada, termasuk tiga bahagian penting: 1) modul pengekodan visual & bahasa bahagian hadapan, 2) modul pemahaman dan penjanaan teks LLM pusat, dan 3) respons pengguna dan panggilan modul belakang untuk kawalan visual modul.
- Modul bahagian hadapan: Pengekodan visual-linguistik. Untuk melihat isyarat modal imej dan video serta menyokong input visual pengguna yang terperinci, Vitron menyepadukan pengekod imej, pengekod video dan pengekod kotak/lakaran wilayah.
- Modul pusat: LLM Teras. Vitron menggunakan Vicuna (7B, 1.5) untuk memahami, menaakul, membuat keputusan dan berbilang pusingan interaksi pengguna.
- Modul belakang: Respons pengguna dan panggilan modul. Vitron mengguna pakai strategi panggilan bertumpu teks dan menyepadukan beberapa modul pemprosesan imej dan video yang berkuasa dan canggih (SoTA) untuk penyahkodan dan melaksanakan satu siri tugas terminal visual daripada peringkat rendah ke peringkat tinggi. Dengan mengguna pakai kaedah panggilan penyepaduan modul bertumpu teks, Vitron bukan sahaja mencapai penyatuan sistem, tetapi juga memastikan kecekapan penjajaran dan kebolehskalaan sistem. . Latihan model terutamanya merangkumi tiga peringkat berbeza.

Atas ialah kandungan terperinci Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7569

Tutorial CakePHP

1386

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

107

Tunjukkan Lagi

Related knowledge

Cara memadam repositori dengan git Apr 17, 2025 pm 04:03 PM

Untuk memadam repositori Git, ikuti langkah -langkah ini: Sahkan repositori yang anda mahu padamkan. Penghapusan repositori tempatan: Gunakan perintah RM -RF untuk memadam foldernya. Jauh memadam gudang: Navigasi ke tetapan gudang, cari pilihan "Padam Gudang", dan sahkan operasi.

Cara memuat turun projek git ke tempatan Apr 17, 2025 pm 04:36 PM

Untuk memuat turun projek secara tempatan melalui Git, ikuti langkah -langkah ini: pasang git. Navigasi ke direktori projek. Pengklonan Repositori Jauh menggunakan arahan berikut: Git Clone https://github.com/username/repository-name.git

Cara menjana kunci ssh dalam git Apr 17, 2025 pm 01:36 PM

Untuk selamat menyambung ke pelayan Git Jauh, kunci SSH yang mengandungi kekunci awam dan swasta perlu dijana. Langkah -langkah untuk menghasilkan kunci SSH adalah seperti berikut: Buka terminal dan masukkan perintah SSH -Keygen -T RSA -B 4096. Pilih lokasi penjimatan utama. Masukkan frasa kata laluan untuk melindungi kunci peribadi. Salin kunci awam ke pelayan jauh. Simpan kunci peribadi dengan betul kerana ia adalah kelayakan untuk mengakses akaun.

Apa yang Harus Dilakukan Sekiranya Muat turun Git Tidak Aktif Apr 17, 2025 pm 04:54 PM

Selesaikan: Apabila kelajuan muat turun git perlahan, anda boleh mengambil langkah -langkah berikut: periksa sambungan rangkaian dan cuba menukar kaedah sambungan. Mengoptimumkan Konfigurasi Git: Meningkatkan Saiz Penampan Pos (Git Config-Global Http.PostBuffer 524288000), dan mengurangkan had berkelajuan rendah (git config --global http.lowspeedlimit 1000). Gunakan proksi Git (seperti Git-Proxy atau Git-LFS-Proxy). Cuba gunakan klien Git yang berbeza (seperti sourcetree atau github desktop). Periksa perlindungan kebakaran

Cara Menambah Kekunci Awam ke Akaun Git Apr 17, 2025 pm 02:42 PM

Bagaimana untuk menambah kunci awam ke akaun Git? Langkah: Menjana pasangan kunci SSH. Salin kunci awam. Tambah kunci awam di Gitlab atau GitHub. Uji sambungan SSH.

Cara Menangani Konflik Kod Git Apr 17, 2025 pm 02:51 PM

Konflik kod merujuk kepada konflik yang berlaku apabila pelbagai pemaju mengubah suai kod yang sama dan menyebabkan Git bergabung tanpa memilih perubahan secara automatik. Langkah -langkah resolusi termasuk: Buka fail yang bercanggah dan cari kod yang bercanggah. Gabungkan kod secara manual dan salin perubahan yang anda mahu masuk ke dalam penanda konflik. Padam tanda konflik. Simpan dan serahkan perubahan.

Cara menyambung ke rangkaian awam pelayan git Apr 17, 2025 pm 02:27 PM

Menyambungkan pelayan Git ke rangkaian awam termasuk lima langkah: 1. Sediakan alamat IP awam; 2. Buka port firewall (22, 9418, 80/443); 3. Konfigurasi akses SSH (menghasilkan pasangan utama, buat pengguna); 4. Konfigurasi akses HTTP/HTTPS (pasang pelayan, konfigurasikan keizinan); 5. Uji sambungan (menggunakan klien SSH atau arahan git).

Cara Menggunakan Git Rebase Apr 17, 2025 pm 04:00 PM

GIT Rebase digunakan untuk memohon semula ke dasar baru untuk membersihkan sejarah atau memindahkan cawangan. Cara Menggunakan: Buat Cawangan Sasaran Pilih komit untuk dimasukkan semula dan laksanakan perintah Git Rebase, tentukan cawangan sasaran dan komit skop untuk menyelesaikan konflik, terus memohon semula perubahan pengesahan komited yang selebihnya.

See all articles