Jadual Kandungan
Hasil eksperimen
Rumah Peranti teknologi AI Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Jan 22, 2024 pm 03:21 PM
data Model

Kedudukan transformer dalam bidang model besar tidak boleh digoncangkan. Walau bagaimanapun, apabila skala model mengembang dan panjang jujukan meningkat, batasan seni bina Transformer tradisional mula menjadi jelas. Nasib baik, kedatangan Mamba dengan cepat mengubah keadaan ini. Prestasi cemerlangnya serta-merta menimbulkan sensasi dalam komuniti AI. Kemunculan Mamba telah membawa penemuan besar kepada latihan model berskala besar dan pemprosesan jujukan. Kelebihannya merebak dengan pantas dalam komuniti AI, membawa harapan besar untuk penyelidikan dan aplikasi masa depan.

Pada Khamis lalu, pengenalan Vision Mamba (Vim) telah menunjukkan potensi besarnya untuk menjadi tulang belakang generasi seterusnya model asas visual. Hanya sehari kemudian, penyelidik dari Akademi Sains China, Huawei dan Makmal Pengcheng mencadangkan VMamba: Model visual Mamba dengan medan penerimaan global dan kerumitan linear. Kerja ini menandakan momen Swin model Mamba visual.

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba


  • Tajuk kertas: VMamba: Model Angkasa Negeri Visual
  • Alamat kertas: https://arxiv.org/abs/2401.1016 b .com/MzeroMiko/VMamba
  • CNN dan Visual Transformer (ViT) kini merupakan dua model visual asas paling arus perdana. Walaupun CNN mempunyai kerumitan linear, ViT mempunyai keupayaan pemasangan data yang lebih berkuasa, tetapi pada kos kerumitan pengiraan yang lebih tinggi.
  • Penyelidik percaya bahawa ViT mempunyai keupayaan pemasangan yang kuat kerana ia mempunyai medan penerimaan global dan berat dinamik. Diilhamkan oleh model Mamba, penyelidik mereka bentuk model yang mempunyai kedua-dua sifat yang sangat baik di bawah kerumitan linear, iaitu Model Angkasa Negeri Visual (VMamba).
Eksperimen yang meluas telah membuktikan bahawa VMamba berfungsi dengan baik dalam pelbagai tugas visual.

Seperti yang ditunjukkan dalam rajah di bawah, VMamba-S mencapai ketepatan 83.5% pada ImageNet-1K, iaitu 3.2% lebih tinggi daripada Vim-S dan 0.5% lebih tinggi daripada Swin-S.

Pengenalan KaedahDetik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Kunci kejayaan VMamba terletak pada penggunaan model S6, yang pada asalnya direka bentuk untuk menyelesaikan tugasan bahasa semula jadi (LP) Tidak seperti mekanisme perhatian ViT, model S6 secara berkesan mengurangkan kerumitan kuadratik kepada lineariti dengan berinteraksi setiap elemen dalam vektor 1D dengan maklumat imbasan sebelumnya. Interaksi ini menjadikan VMamba lebih cekap apabila memproses data berskala besar. Oleh itu, pengenalan model S6 meletakkan asas yang kukuh untuk kejayaan VMamba. Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Walau bagaimanapun, memandangkan isyarat visual (seperti imej) tidak disusun secara semula jadi seperti urutan teks, kaedah pengimbasan data dalam S6 tidak boleh digunakan secara langsung pada isyarat visual. Untuk tujuan ini, penyelidik mereka bentuk mekanisme pengimbasan Cross-Scan. Modul Imbas Silang (CSM) mengamalkan strategi pengimbasan empat hala, iaitu mengimbas dari empat penjuru peta ciri secara serentak (lihat rajah di atas).

Strategi ini memastikan bahawa setiap elemen dalam ciri menyepadukan maklumat dari semua lokasi lain dalam arah yang berbeza, membentuk medan penerimaan global tanpa meningkatkan kerumitan pengiraan linear.

Berdasarkan CSM, pengarang mereka bentuk modul 2D-selektif-scan (SS2D). Seperti yang ditunjukkan dalam rajah di atas, SS2D terdiri daripada tiga langkah: Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

scan kembangkan meratakan ciri 2D menjadi vektor 1D di sepanjang 4 arah berbeza (kiri atas, kanan bawah, kiri bawah, kanan atas).

  • Blok S6 secara bebas menghantar 4 vektor 1D yang diperoleh dalam langkah sebelumnya ke operasi S6.
  • cantuman imbasan menggabungkan 4 vektor 1D yang terhasil menjadi output ciri 2D.

Gambar di atas ialah gambar rajah struktur VMamba yang dicadangkan dalam artikel ini. Rangka kerja keseluruhan VMamba adalah serupa dengan model visual arus perdana Perbezaan utama terletak pada pengendali yang digunakan dalam modul asas (blok VSS). Blok VSS menggunakan operasi 2D-selektif-scan yang diperkenalkan di atas, iaitu SS2D. SS2D memastikan VMamba mencapai Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMambabidang penerimaan global dengan kos

kerumitan linear

.

Hasil eksperimen

Pengkelasan ImageNet

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Tidak sukar untuk melihatnya di bawah amaun parameter dan FLOP yang sama:

  • .2% Persembahan melebihi RegNetY-4G sebanyak 2.2%, DeiT-S sebanyak 2.4% dan Swin-T sebanyak 0.9%.
  • VMamba-S mencapai prestasi 83.5%, melebihi RegNetY-8G sebanyak 1.8% dan Swin-S sebanyak 0.5%.
  • VMamba-B mencapai prestasi 83.2% (terdapat pepijat, hasil yang betul akan dikemas kini pada halaman Github secepat mungkin), iaitu 0.3% lebih tinggi daripada RegNetY.

Keputusan ini jauh lebih tinggi daripada model Vision Mamba (Vim), yang mengesahkan sepenuhnya potensi VMamba.

COCO pengesanan sasaran

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Pada set data COOCO, VMamba juga mengekalkan prestasi cemerlang: dalam kes penalaan halus 12 zaman/S46B.5% masing-masing dicapai 48.2%/48.5% mAP, melebihi Swin-T/S/B sebanyak 3.8%/3.6%/1.6% mAP dan melebihi ConvNeXt-T/S/B sebanyak 2.3%/2.8%/1.5% mAP. Keputusan ini mengesahkan bahawa VMamba berfungsi sepenuhnya dalam eksperimen visual hiliran, menunjukkan potensinya untuk menggantikan model visual asas arus perdana.

Segmentasi Semantik ADE20K

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

Pada ADE20K, VMamba juga menunjukkan prestasi yang cemerlang. Model VMamba-T mencapai 47.3% mIoU pada resolusi 512 × 512, skor yang mengatasi semua pesaing, termasuk ResNet, DeiT, Swin dan ConvNeXt. Kelebihan ini masih boleh dikekalkan di bawah model VMamba-S/B.

Eksperimen analisis

Medan penerimaan yang berkesan

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

VMamba mempunyai ciri penerimaan berkesan global yang lain dan hanya model DeiT ini Walau bagaimanapun, perlu diperhatikan bahawa kos DeiT ialah kerumitan kuadratik, manakala VMamaba ialah kerumitan linear.

Penskalaan skala input

Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba

  • Rajah di atas (a) menunjukkan bahawa VMamba mempamerkan prestasi paling stabil (tanpa penalaan halus) di bawah saiz imej input yang berbeza. Menariknya, apabila saiz input meningkat daripada 224 × 224 kepada 384 × 384, hanya VMamba menunjukkan peningkatan prestasi yang ketara (VMamba-S daripada 83.5% kepada 84.0%), menyerlahkan keteguhannya kepada perubahan dalam jantina saiz imej input.
  • Rajah (b) di atas menunjukkan bahawa kerumitan model siri VMamba meningkat secara linear apabila input menjadi lebih besar, yang konsisten dengan model CNN.

Akhirnya, marilah kita menantikan lebih banyak model penglihatan berasaskan Mamba yang dicadangkan, bersama CNN dan ViT, untuk menyediakan pilihan ketiga untuk model penglihatan asas.

🎜

Atas ialah kandungan terperinci Detik Swin model visual Mamba, Akademi Sains China, Huawei dan lain-lain melancarkan VMamba. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

See all articles