Rumah Peranti teknologi AI Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Feb 01, 2024 pm 05:15 PM
industri model jarang Model bahasa visual yang besar

Model Bahasa Visual Skala Besar (LVLM) boleh meningkatkan prestasi dengan menskalakan model. Walau bagaimanapun, meningkatkan saiz parameter meningkatkan kos latihan dan inferens kerana pengiraan setiap token mengaktifkan semua parameter model.

Penyelidik dari Universiti Peking, Universiti Sun Yat-sen dan institusi lain bersama-sama mencadangkan strategi latihan baharu yang dipanggil MoE-Tuning untuk menyelesaikan masalah kemerosotan prestasi yang berkaitan dengan pembelajaran pelbagai mod dan jarang model. MoE-Tuning mampu membina model jarang dengan bilangan parameter yang mengejutkan tetapi kos pengiraan yang berterusan. Di samping itu, penyelidik juga mencadangkan seni bina LVLM jarang baharu berdasarkan MoE, yang dipanggil rangka kerja MoE-LLaVA. Dalam rangka kerja ini, hanya pakar k teratas diaktifkan melalui algoritma penghalaan, dan pakar selebihnya kekal tidak aktif. Dengan cara ini, rangka kerja MoE-LLaVA boleh menggunakan sumber rangkaian pakar dengan lebih cekap semasa proses penempatan. Hasil penyelidikan ini menyediakan penyelesaian baharu untuk menyelesaikan cabaran pembelajaran pelbagai mod dan jarang model model LVLM.

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

  • Alamat kertas: https://arxiv.org/abs/2401.15947

  • Alamat projek: https://github.com/PKU-YuanGroup/MoE-LLa

  • DemoVA/MoE-LLa https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

  • Tajuk kertas: MoE-LLaVA: Campuran Pakar untuk Model Bahasa Penglihatan Besar

MoE-LLaVArse hanya mempunyai parameter pengaktifan 3B Walau bagaimanapun, ia bersamaan dengan LLaVA-1.5-7B pada pelbagai set data pemahaman visual, malah mengatasi LLaVA-1.5-13B dalam ujian penanda aras ilusi objek. Melalui MoE-LLaVA, kajian ini bertujuan untuk mewujudkan penanda aras bagi LVLM yang jarang dan memberikan pandangan berharga untuk penyelidikan masa depan bagi membangunkan sistem pembelajaran pelbagai mod yang lebih cekap dan berkesan. Pasukan MoE-LLaVA telah membuka semua data, kod dan model. . mengamalkan strategi latihan tiga peringkat. Seperti yang ditunjukkan dalam Rajah 2, pengekod penglihatan memproses imej input untuk mendapatkan urutan token visual. Lapisan unjuran digunakan untuk memetakan token visual ke dalam dimensi yang boleh diterima oleh LLM. Begitu juga, teks yang dipasangkan dengan imej ditayangkan melalui lapisan pembenaman perkataan untuk mendapatkan token teks urutan.

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Fasa 1: Seperti yang ditunjukkan dalam Rajah 2, matlamat Fasa 1 adalah untuk menyesuaikan token visual kepada LLM dan memberi LLM keupayaan untuk memahami entiti dalam gambar. MoE-LLaVA menggunakan MLP untuk menayangkan token imej ke dalam domain input LLM, yang bermaksud bahawa tampung imej kecil dianggap sebagai token teks pseudo oleh LLM. Pada peringkat ini, LLM dilatih untuk menerangkan imej dan memahami semantik imej peringkat lebih tinggi. Lapisan MoE tidak akan digunakan pada LVLM pada peringkat ini.
. LLM LVLM ditala untuk pemahaman pelbagai modal. Pada peringkat ini, penyelidikan menambah arahan yang lebih kompleks, termasuk tugas lanjutan seperti penaakulan logik gambar dan pengecaman teks, yang memerlukan model untuk mempunyai keupayaan pemahaman pelbagai mod yang lebih kukuh. Secara umumnya, LVLM model padat dilatih pada ketika ini Walau bagaimanapun, pasukan penyelidik mendapati bahawa ia adalah mencabar untuk menukar LLM kepada LVLM dan jarang model pada masa yang sama. Oleh itu, MoE-LLaVA akan menggunakan pemberat peringkat kedua sebagai permulaan peringkat ketiga untuk mengurangkan kesukaran pembelajaran model jarang.
Fasa 3: MoE-LLaVA menyalin berbilang salinan FFN sebagai pemberat permulaan set pakar. Apabila token visual dan token teks dimasukkan ke dalam lapisan MoE, penghala akan mengira berat sepadan bagi setiap token dan pakar, dan kemudian setiap token akan dihantar kepada pakar paling sepadan teratas untuk diproses, dan akhirnya berdasarkan berat penghala Penjumlahan wajaran diagregatkan ke dalam output. Apabila pakar top-k diaktifkan, pakar yang selebihnya kekal tidak aktif, dan model ini membentuk MoE-LLaVA dengan kemungkinan laluan jarang yang tidak terhingga.

Eksperimen


Seperti yang ditunjukkan dalam Rajah 4, memandangkan MoE-LLaVA ialah model jarang pertama berdasarkan LVLM yang dilengkapi dengan penghala lembut, model sebelumnya ini. Pasukan penyelidik mengesahkan prestasi MoE-LLaVA pada 5 tanda aras soalan dan jawapan imej, dan melaporkan jumlah parameter yang diaktifkan dan resolusi imej. Berbanding dengan kaedah SOTA LLaVA-1.5, MoE-LLaVA-2.7B×4 menunjukkan keupayaan pemahaman imej yang kukuh, dan prestasinya sangat hampir dengan LLaVA-1.5 pada 5 penanda aras. Antaranya, MoE-LLaVA menggunakan parameter pengaktifan jarang 3.6B dan melebihi LLaVA-1.5-7B pada SQAI sebanyak 1.9%. Perlu diingat bahawa disebabkan oleh struktur jarang MoE-LLaVA, hanya parameter pengaktifan 2.6B diperlukan untuk mengatasi sepenuhnya IDEFICS-80B.

Rajah 4 Prestasi MoE-LLaVA pada 9 penanda aras

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Selain itu, pasukan penyelidik juga memberi perhatian kepada model bahasa visual kecil yang baru-baru ini, Tiny.GPBBLaV × 4 melebihi TinyGPT-V masing-masing sebanyak 27.5% dan 10% dalam GQA dan VisWiz di bawah parameter pengaktifan yang setanding, yang menandakan keupayaan pemahaman kuat MoE-LLaVA dalam penglihatan semula jadi.
Untuk mengesahkan keupayaan pemahaman pelbagai mod MoE-LLaVA secara lebih komprehensif, kajian ini menilai prestasi model pada 4 kit alat penanda aras. Kit alat penanda aras ialah kit alat untuk mengesahkan sama ada model boleh menjawab soalan dalam bahasa semula jadi Biasanya jawapannya terbuka dan tidak mempunyai templat tetap. Seperti yang ditunjukkan dalam Rajah 4, MoE-LLaVA-1.8B×4 mengatasi Qwen-VL, yang menggunakan resolusi imej yang lebih besar. Keputusan ini menunjukkan bahawa MoE-LLaVA, model yang jarang, boleh mencapai prestasi yang setanding atau bahkan melebihi model padat dengan parameter pengaktifan yang lebih sedikit.

Figure 5 Prestasi Penilaian MOE-Llava mengenai Pengesanan Objek Halusinasi Kajian ini menggunakan saluran paip penilaian Paus untuk mengesahkan halusinasi objek MOE-Llava. . MoE -LLaVA mempamerkan prestasi terbaik, bermakna MoE-LLaVA cenderung menjana objek yang konsisten dengan imej yang diberikan. Khususnya, MoE-LLaVA-1.8B×4 mengatasi LLaVA dengan parameter pengaktifan 2.2B. Di samping itu, pasukan penyelidik mendapati bahawa nisbah ya bagi MoE-LLaVA berada dalam keadaan yang agak seimbang, yang menunjukkan bahawa model jarang MoE-LLaVA boleh membuat maklum balas yang betul berdasarkan masalah.

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Rajah 6 Visualisasi beban pakar
Rajah 6 menunjukkan beban pakar MoE-LLaVA-2.7B×4-A.Top2 Secara keseluruhan, semasa permulaan latihan, beban pakar dalam semua lapisan KPM adalah agak seimbang. Walau bagaimanapun, apabila model secara beransur-ansur menjadi jarang, beban pakar pada lapisan 17 hingga 27 tiba-tiba meningkat, malah meliputi hampir semua token. Untuk lapisan cetek 5-11, pakar 2, 3, dan 4 terutamanya bekerjasama. Perlu diingat bahawa Pakar 1 berfungsi hampir secara eksklusif pada lapisan 1-3 dan secara beransur-ansur berhenti daripada kerja apabila model semakin mendalam. Oleh itu, pakar MoE-LLaVA telah mempelajari corak tertentu yang membolehkan pembahagian kerja pakar mengikut peraturan tertentu.
Rajah 7 Visualisasi pengedaran modal

Rajah 7 menunjukkan pengedaran modal pakar yang berbeza. Kajian mendapati bahawa taburan penghalaan teks dan imej adalah sangat serupa. Contohnya, apabila pakar 3 bekerja keras pada lapisan 17-27, perkadaran teks dan imej yang diproses olehnya adalah serupa. Ini menunjukkan bahawa MoE-LLaVA tidak mempunyai keutamaan yang jelas untuk modaliti.

Kajian ini juga memerhatikan tingkah laku pakar pada tahap token dan menjejaki trajektori semua token dalam rangkaian jarang pada tugas hiliran. Untuk semua laluan teks dan imej yang diaktifkan, kajian ini menggunakan pengurangan dimensi PCA untuk mendapatkan 10 laluan utama, seperti yang ditunjukkan dalam Rajah 8. Pasukan penyelidik mendapati bahawa untuk token teks atau token imej yang tidak kelihatan, MoE-LLaVA sentiasa memilih untuk menghantar pakar 2 dan 3 untuk mengendalikan kedalaman model. Pakar 1 dan 4 cenderung berurusan dengan token yang dimulakan. Keputusan ini boleh membantu kami lebih memahami tingkah laku model jarang dalam pembelajaran pelbagai mod dan meneroka kemungkinan yang tidak diketahui.

Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B

Rajah 8 Visualisasi laluan pengaktifan

Atas ialah kandungan terperinci Jarang model besar berbilang modal, dan model 3B MoE-LLaVA adalah setanding dengan LLaVA-1.5-7B. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Aug 19, 2024 pm 04:48 PM

Kecerdasan buatan berkembang lebih cepat daripada yang anda bayangkan. Sejak GPT-4 memperkenalkan teknologi multimodal ke mata umum, model besar multimodal telah memasuki tahap pembangunan pesat, secara beransur-ansur beralih daripada penyelidikan dan pembangunan model tulen kepada penerokaan dan aplikasi dalam bidang menegak, dan disepadukan secara mendalam dengan semua lapisan masyarakat. Dalam bidang interaksi antara muka, gergasi teknologi antarabangsa seperti Google dan Apple telah melabur dalam penyelidikan dan pembangunan model UI berbilang modal yang besar, yang dianggap sebagai satu-satunya jalan ke hadapan untuk revolusi AI telefon mudah alih. Dalam konteks ini, model UI berskala besar pertama di China telah dilahirkan. Pada 17 Ogos, di Persidangan Reka Bentuk Pengalaman Antarabangsa IXDC2024, Motiff, alat reka bentuk dalam era AI, melancarkan model berbilang modal UI yang dibangunkan secara bebas - Model Motiff. Ini ialah alat reka bentuk UI pertama di dunia

See all articles