


Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!
Perkembangan Transformer visual berskala besar yang pesat dalam beberapa tahun kebelakangan ini telah mendorong sempadan prestasi dalam bidang penglihatan komputer. Model Vision Transformer mengalahkan rangkaian neural konvolusi dengan mengembangkan bilangan parameter model dan data latihan. Penyelidik dari Makmal Kepintaran Buatan Shanghai, Universiti Tsinghua, Nanda, SenseTime, dan Cina Hong Kong merumuskan jurang antara rangkaian saraf konvolusi dan Transformer visual. Dari peringkat pengendali, pengendali CNN tradisional tidak mempunyai kebergantungan jarak jauh dan keupayaan pengagregatan spatial adaptif dari peringkat struktur, struktur CNN tradisional tidak mempunyai komponen lanjutan.
Memandangkan masalah teknikal di atas, penyelidik dari Makmal Pujiang, Universiti Tsinghua dan institusi lain secara inovatif mencadangkan model berskala besar berdasarkan rangkaian saraf konvolusi, yang dipanggil ialah InternImage, yang menggunakan lilitan dinamik yang jarang sebagai pengendali teras dan mencapai pengagregatan spatial adaptif dengan memasukkan maklumat yang berkaitan sebagai syarat. InternImage membolehkan pembelajaran corak parameter berskala besar yang lebih berkuasa dan teguh daripada data besar-besaran dengan mengurangkan kecenderungan induktif ketat CNN tradisional. Keberkesanannya telah disahkan pada tugas visual termasuk klasifikasi imej, pengesanan objek dan segmentasi semantik. Ia telah mencapai keputusan yang kompetitif dalam set data penanda aras yang mencabar termasuk ImageNet, COCO dan ADE20K Pada tahap parameter yang sama, ia telah melepasi struktur Transformer visual dan memberikan arah baharu untuk model imej yang besar.
- Pautan kertas: https://arxiv.org/abs/2211.05778
- Kod sumber terbuka: https://github.com/OpenGVLab/InternImage
Keterbatasan rangkaian neural konvolusi tradisional
Memperluas saiz model merupakan strategi penting untuk meningkatkan kualiti perwakilan ciri Dalam bidang penglihatan komputer, pengembangan parameter model bukan sahaja boleh meningkatkan kedalaman dengan berkesan Model ini mempunyai keupayaan pembelajaran perwakilan dan boleh mencapai pembelajaran dan pemerolehan pengetahuan daripada data besar-besaran. ViT dan Swin Transformer mengembangkan model kedalaman kepada 2 bilion dan 3 bilion tahap parameter untuk kali pertama Ketepatan klasifikasi model tunggal mereka dalam set data ImageNet juga melebihi 90%, jauh melebihi rangkaian CNN tradisional dan model berskala kecil. menerobos kesesakan teknikal. Walau bagaimanapun, disebabkan kekurangan kebergantungan jarak jauh dan keupayaan pemodelan hubungan ruang, model CNN tradisional tidak dapat mencapai keupayaan pengembangan skala model yang serupa dengan struktur Transformer. Para penyelidik merumuskan perbezaan antara rangkaian neural konvolusi tradisional dan Transformer visual:
(1) Dari peringkat operator, mekanisme perhatian berbilang kepala Transformer visual mempunyai kebergantungan jarak jauh Dan penyesuaian. keupayaan pengagregatan spatial, mendapat manfaat daripada ini, Transformer visual boleh belajar daripada data besar-besaran yang lebih berkuasa dan perwakilan yang teguh daripada rangkaian CNN.
(2) Dari perspektif seni bina model, sebagai tambahan kepada mekanisme perhatian berbilang kepala, Transformer visual mempunyai modul yang lebih maju yang tidak ada pada rangkaian CNN, seperti Layer Normalisasi (LN), rangkaian Neural suapan FFN, GELU, dsb.
Walaupun beberapa karya baru-baru ini cuba menggunakan konvolusi kernel yang besar untuk mendapatkan kebergantungan jarak jauh, ia masih jauh dari transformer visual yang canggih dari segi skala model dan ketepatan.
Peluasan lanjut rangkaian konvolusi boleh ubah bentuk
InternImage meningkatkan kebolehskalaan model konvolusi dan mengurangkan bias induktif dengan mereka bentuk semula operator dan struktur model , termasuk (1) pengendali DCNv3, yang memperkenalkan berat unjuran bersama, mekanisme berbilang kumpulan dan modulasi titik pensampelan berdasarkan pengendali DCNv2. (2) Modul asas, menyepadukan modul lanjutan sebagai unit modul asas untuk pembinaan model (3) Peraturan susun modul, menyeragamkan lebar, kedalaman, bilangan kumpulan dan parameter hiper lain model apabila mengembangkan model.
Kerja ini memfokuskan pada membina model CNN yang boleh menskalakan kepada parameter berskala besar dengan cekap. Pertama, pengendali lilitan boleh ubah bentuk DCNv2 direka bentuk semula untuk menyesuaikan diri dengan kebergantungan jarak jauh dan melemahkan bias induktif kemudian, pengendali lilitan terlaras digabungkan dengan komponen lanjutan untuk mewujudkan modul unit asas, akhirnya, meneroka dan melaksanakan peraturan Penskalaan dan penskalaan; untuk membina model asas dengan parameter berskala besar dan perwakilan berkuasa boleh dipelajari daripada data besar-besaran.
Di peringkat pengendali, kajian ini mula-mula merumuskan perbezaan utama antara pengendali konvolusi dan pengendali arus perdana yang lain. Model siri Transformer arus perdana terutamanya bergantung pada mekanisme perhatian kendiri berbilang kepala untuk mencapai pembinaan model yang besar. Pengendalinya mempunyai kebergantungan jarak jauh, yang mencukupi untuk membina hubungan sambungan antara ciri jarak jauh, dan juga mempunyai pengagregatan penyesuaian spatial. keupayaan untuk mencapai perhubungan tahap piksel. Walau bagaimanapun, mekanisme perhatian global ini mempunyai keperluan pengkomputeran dan penyimpanan yang besar, menjadikannya sukar untuk mencapai latihan yang cekap dan penumpuan pantas. Begitu juga, mekanisme perhatian tempatan tidak mempunyai pergantungan ciri jarak jauh. Konvolusi padat teras besar tidak mempunyai keupayaan pengagregatan spatial, jadi sukar untuk mengatasi bias induktif semula jadi konvolusi, yang tidak kondusif untuk mengembangkan model. Oleh itu, InternImage mereka bentuk pengendali lilitan jarang dinamik untuk mencapai kesan perhatian global tanpa membuang terlalu banyak sumber pengkomputeran dan penyimpanan, mencapai latihan yang cekap.
Berdasarkan pengendali DCNv2, penyelidik mereka bentuk semula, melaraskan dan mencadangkan pembaikan khusus DCNv3 termasuk bahagian berikut.
(1) Berkongsi berat unjuran. Sama seperti konvolusi konvensional, titik pensampelan yang berbeza dalam DCNv2 mempunyai berat unjuran bebas, jadi saiz parameternya adalah berkaitan secara linear dengan jumlah titik pensampelan. Untuk mengurangkan kerumitan parameter dan ingatan, kami menggunakan idea konvolusi yang boleh dipisahkan dan menggunakan pemberat bebas kedudukan untuk menggantikan pemberat kumpulan Berat unjuran dikongsi antara titik persampelan yang berbeza, dan semua kebergantungan kedudukan persampelan dikekalkan.
(2) Memperkenalkan pelbagai kumpulan mekanisme. Reka bentuk berbilang kumpulan mula-mula diperkenalkan dalam lilitan berkumpulan dan digunakan secara meluas dalam perhatian diri berbilang kepala Transformer Ia boleh dipasangkan dengan pengagregatan ruang suai untuk meningkatkan kepelbagaian ciri dengan berkesan. Diilhamkan oleh ini, penyelidik membahagikan proses pengagregatan spatial kepada beberapa kumpulan, dan setiap kumpulan mempunyai offset pensampelan bebas. Sejak itu, kumpulan berlainan bagi satu lapisan DCNv3 mempunyai corak pengagregatan spatial yang berbeza, menghasilkan kepelbagaian ciri yang kaya.
(3) Penormalan skalar modulasi titik pensampelan. Untuk mengurangkan masalah ketidakstabilan apabila kapasiti model diperluaskan, para penyelidik menetapkan mod penormalan kepada penormalan Softmax pada asas sampel demi sampel Ini bukan sahaja menjadikan proses latihan model berskala besar lebih stabil, tetapi juga membina model semua titik persampelan hubungan sambungan.
Selepas membina pengendali DCNv3, mula-mula anda perlu menormalkan butiran keseluruhan modul asas dan lapisan lain model, dan kemudian meneroka butiran modul asas ini Strategi susun untuk membina InternImage. Akhir sekali, model dengan jumlah parameter yang berbeza dibina mengikut peraturan pengembangan model yang dicadangkan.
Modul asas . Berbeza daripada struktur kesesakan yang digunakan secara meluas dalam CNN tradisional, kajian ini menggunakan modul asas yang lebih dekat dengan ViT, dilengkapi dengan komponen yang lebih maju, termasuk GELU, penormalan lapisan (LN) dan rangkaian suapan ke hadapan (FFN), yang telah Terbukti lebih cekap dalam pelbagai tugas penglihatan. Butiran modul asas ditunjukkan dalam rajah di atas, di mana pengendali teras ialah DCNv3, yang meramalkan bias pensampelan dan skala modulasi dengan menghantar ciri input melalui lilitan boleh pisah yang ringan. Untuk komponen lain, ikut reka bentuk yang sama seperti Transformer biasa.
Peraturan Susunan. Untuk menjelaskan proses susun blok, kajian ini mencadangkan dua peraturan susun modul Peraturan pertama ialah bilangan saluran dalam tiga peringkat terakhir , yang ditentukan oleh bilangan saluran dalam. peringkat pertama
keputusan, iaitu,
; peraturan kedua ialah nombor kumpulan setiap modul sepadan dengan bilangan saluran dalam setiap peringkat, iaitu,
; ketiga, susun Mod ditetapkan kepada "AABA", iaitu bilangan susunan modul dalam peringkat 1, 2 dan 4 adalah sama
, dan tidak lebih besar daripada itu pada peringkat 3
. Oleh itu, model dengan volum parameter 30M dipilih sebagai asas Parameter khusus ialah: bilangan saluran keluaran Steam
ialah 64 kumpulan ialah 1/16 daripada nombor saluran input dalam setiap peringkat Bilangan susunan modul dalam peringkat 1, 2 dan 4 ialah 4, bilangan susunan modul dalam peringkat 3 ialah 18, dan parameter model ialah 30M.
Peraturan penskalaan model
. Berdasarkan model optimum di bawah kekangan di atas, kajian ini menormalkan dua dimensi penskalaan model rangkaian: kedalaman D (bilangan susunan modul) dan lebar C (bilangan saluran), menggunakan faktor sekatan dan skalakan kedalaman dan lebar di sepanjang pekali komposit , iaitu,
, di mana
, mengikut eksperimen tetapan optimum ialah
.
Mengikut peraturan ini, kajian ini membina model skala yang berbeza, iaitu InternImage-T, S, B, L, XL. Parameter khusus ialah:
Hasil eksperimen
Eksperimen klasifikasi imej: Dengan menggunakan 427M pengumpulan data awam: Laion-400M, YFCC15M, CC12M , InternImage-H mencapai ketepatan 89.2% pada ImageNet-1K.
Pengesanan objek: Mengambil InternImage-H terbesar sebagai Tulang Belakang rangkaian, dan menggunakan DINO sebagai rangka kerja pengesanan asas, pralatih pengesan DINO pada set data Objects365, dan kemudian diperhalusi pada COCO. Model ini mencapai hasil optimum sebanyak 65.4% dalam tugas pengesanan sasaran, menembusi sempadan prestasi pengesanan sasaran COCO.
Segmentasi Semantik: Mengenai segmentasi semantik, InternImage-H It juga mencapai prestasi yang sangat baik, dan digabungkan dengan Mask2Former mencapai 62.9% tertinggi semasa pada ADE20K.
Kesimpulan
Kajian ini mencadangkan InternImage, model asas berskala besar berasaskan CNN yang boleh representasi berkuasa disediakan untuk tugas penglihatan serba boleh seperti klasifikasi imej, pengesanan objek, dan segmentasi semantik. Para penyelidik melaraskan pengendali DCNv2 yang fleksibel untuk memenuhi keperluan model asas, dan membangunkan satu siri peraturan menyekat, menyusun dan menskala berdasarkan pengendali teras. Eksperimen meluas pada pengesanan objek dan penanda aras segmentasi semantik telah mengesahkan bahawa InternImage boleh mencapai prestasi yang setara atau lebih baik daripada Transformer visual berskala besar yang direka bentuk dengan baik yang dilatih pada jumlah data yang besar, menunjukkan bahawa CNN juga merupakan langkah besar dalam model asas visual berskala besar. penyelidikan. Namun, CNN berskala besar masih dalam peringkat awal pembangunan mereka, dan para penyelidik berharap InternImage boleh berfungsi sebagai titik permulaan yang baik.
Atas ialah kandungan terperinci Menggunakan CNN sebagai model asas, konvolusi boleh ubah bentuk InternImage mencapai rekod baharu dalam pengesanan dan pembahagian!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
