


ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer
Selepas beberapa dekad penyelidikan asas, bidang pengecaman visual telah membawa kepada era baharu pembelajaran perwakilan visual berskala besar. Model penglihatan berskala besar yang telah dilatih telah menjadi alat penting untuk pembelajaran ciri dan aplikasi penglihatan. Prestasi sistem pembelajaran perwakilan visual sangat dipengaruhi oleh tiga faktor utama: seni bina rangkaian neural model, kaedah yang digunakan untuk melatih rangkaian dan data latihan. Penambahbaikan dalam setiap faktor menyumbang kepada peningkatan dalam prestasi model keseluruhan.
Inovasi dalam reka bentuk seni bina rangkaian saraf sentiasa memainkan peranan penting dalam bidang pembelajaran perwakilan. Seni bina rangkaian neural convolutional (ConvNet) telah memberi kesan yang ketara ke atas penyelidikan penglihatan komputer, membolehkan penggunaan kaedah pembelajaran ciri universal dalam pelbagai tugas pengecaman visual tanpa bergantung pada kejuruteraan ciri yang dilaksanakan secara manual. Dalam beberapa tahun kebelakangan ini, seni bina transformer, yang pada asalnya dibangunkan untuk pemprosesan bahasa semula jadi, juga telah digunakan secara meluas dalam bidang pembelajaran mendalam yang lain kerana kesesuaiannya untuk model dan set data dengan saiz yang berbeza.
Kemunculan seni bina ConvNeXt memodenkan ConvNet tradisional, membuktikan bahawa model konvolusi tulen juga boleh menyesuaikan diri dengan perubahan dalam model dan saiz set data. Walau bagaimanapun, cara yang paling biasa untuk meneroka ruang reka bentuk seni bina rangkaian saraf masih dengan menanda aras prestasi pembelajaran diselia pada ImageNet.
Idea lain ialah mengalihkan fokus pembelajaran perwakilan visual daripada pembelajaran diselia berlabel kepada pra-latihan penyeliaan sendiri. Algoritma penyeliaan sendiri memperkenalkan pemodelan bahasa bertopeng ke dalam bidang penglihatan dan dengan cepat menjadi kaedah popular untuk pembelajaran perwakilan visual. Walau bagaimanapun, pembelajaran penyeliaan kendiri biasanya menggunakan seni bina yang direka bentuk untuk pembelajaran terselia dan menganggap bahawa seni bina itu tetap. Contohnya, Autoencoder Bertopeng (MAE) menggunakan seni bina pengubah visual.
Salah satu cara ialah menggabungkan seni bina ini dengan rangka kerja pembelajaran yang diselia sendiri, tetapi ia akan menghadapi beberapa masalah khusus. Sebagai contoh, masalah berikut timbul apabila menggabungkan ConvNeXt dengan MAE: MAE mempunyai reka bentuk penyahkod pengekod khusus yang dioptimumkan untuk keupayaan pemprosesan jujukan pengubah, yang menjadikan pengekod intensif secara pengiraan memfokuskan pada tampung yang boleh dilihat itu, dengan itu mengurangkan pra-latihan. kos. Tetapi reka bentuk ini mungkin tidak serasi dengan ConvNet standard, yang menggunakan tingkap gelongsor padat. Tambahan pula, tanpa mengambil kira hubungan antara seni bina dan objektif latihan, adalah tidak jelas sama ada prestasi optimum boleh dicapai. Malah, penyelidikan sedia ada menunjukkan bahawa sukar untuk melatih ConvNet dengan pembelajaran penyeliaan kendiri berasaskan topeng, dan bukti eksperimen menunjukkan bahawa transformer dan ConvNet mungkin menyimpang dalam pembelajaran ciri, yang akan menjejaskan kualiti perwakilan akhir.
Untuk tujuan ini, penyelidik dari KAIST, Meta, dan Universiti New York (termasuk Liu Zhuang, pengarang pertama ConvNeXt, dan Xie Saining, pengarang pertama ResNeXt) mencadangkan untuk mereka bentuk rangkaian bersama seni bina dan pengekodan auto bertopeng di bawah rangka kerja yang sama Tujuannya adalah untuk membolehkan pembelajaran penyeliaan kendiri berasaskan topeng digunakan pada model ConvNeXt dan memperoleh hasil yang setanding dengan pengubah.
Alamat kertas: https://arxiv.org/pdf/2301.00808v1.pdf
Apabila mereka bentuk pengekod auto bertopeng, penyelidikan ini menganggap input dengan topeng sebagai satu set tampalan jarang dan menggunakan lilitan jarang untuk memproses bahagian yang boleh dilihat. Idea ini diilhamkan oleh penggunaan konvolusi jarang apabila memproses awan titik 3D berskala besar. Secara khusus, penyelidikan ini mencadangkan pelaksanaan ConvNeXt dengan lilitan jarang, dan kemudian semasa penalaan halus, pemberat boleh ditukar kembali kepada lapisan rangkaian padat standard tanpa pemprosesan khas. Untuk meningkatkan lagi kecekapan pra-latihan, kajian ini menggantikan penyahkod transformer dengan ConvNeXt tunggal, menjadikan keseluruhan reka bentuk konvolusi sepenuhnya. Para penyelidik memerhatikan bahawa selepas menambah perubahan ini: ciri yang dipelajari adalah berguna dan menambah baik keputusan garis dasar, tetapi prestasi yang diperhalusi masih lebih rendah daripada model berasaskan pengubah.
Kemudian, kajian menganalisis ruang ciri ConvNeXt dengan konfigurasi latihan yang berbeza. Apabila melatih ConvNeXt secara langsung pada input bertopeng, penyelidik menemui potensi masalah keruntuhan ciri dalam lapisan MLP. Untuk menyelesaikan masalah ini, kajian ini mencadangkan untuk menambah lapisan normalisasi tindak balas global (lapisan Normalisasi Respons Global) untuk meningkatkan persaingan ciri antara saluran. Penambahbaikan ini paling berkesan apabila model dilatih terlebih dahulu menggunakan pengekod auto bertopeng, menunjukkan bahawa penggunaan semula reka bentuk seni bina tetap daripada pembelajaran diselia mungkin bukan pendekatan terbaik.
Berdasarkan penambahbaikan di atas, kajian ini mencadangkan ConvNeXt V2, yang menunjukkan prestasi yang lebih baik apabila digabungkan dengan pengekod auto bertopeng. Pada masa yang sama, penyelidik mendapati bahawa ConvNeXt V2 mempunyai peningkatan prestasi yang ketara berbanding ConvNet tulen pada pelbagai tugas hiliran, termasuk tugas klasifikasi pada ImageNet, pengesanan sasaran pada COCO dan segmentasi semantik pada ADE20K.
Pengenalan kepada kaedah
terdiri daripada pengekod ConvNeXt berdasarkan lilitan jarang dan penyahkod ConvNeXt yang ringan, dengan struktur pengekod auto adalah Asimetri. Pengekod hanya memproses piksel yang boleh dilihat, manakala penyahkod menggunakan piksel yang dikodkan dan token topeng untuk membina semula imej. Pada masa yang sama, kerugian hanya dikira di kawasan bertopeng.
Penormalan tindak balas global
Terdapat banyak mekanisme dalam otak yang menggalakkan kepelbagaian neuron. Sebagai contoh, perencatan sisi boleh membantu meningkatkan tindak balas neuron yang diaktifkan, meningkatkan kontras dan selektiviti neuron individu kepada rangsangan sementara juga meningkatkan kepelbagaian tindak balas keseluruhan populasi neuron. Dalam pembelajaran mendalam, bentuk perencatan sisi ini boleh dicapai melalui normalisasi tindak balas. Kajian ini memperkenalkan lapisan normalisasi tindak balas baharu yang dipanggil normalisasi tindak balas global (GRN), yang bertujuan untuk meningkatkan kontras dan selektiviti antara saluran. Unit GRN terdiri daripada tiga langkah: 1) pengagregatan ciri global, 2) penormalan ciri, dan 3) penentukuran ciri. Seperti yang ditunjukkan dalam rajah di bawah, lapisan GRN boleh digabungkan ke dalam blok ConvNeXt asal.
Para penyelidik mendapati berdasarkan eksperimen bahawa apabila menggunakan GRN, LayerScale tidak perlu dan boleh dipadamkan. Dengan memanfaatkan reka bentuk blok baharu ini, kajian itu mencipta berbilang model dengan kecekapan dan kapasiti yang berbeza-beza, yang dinamakan keluarga model ConvNeXt V2, daripada ringan (Atto) kepada intensif pengiraan (Besar).
Untuk menilai peranan GRN, kajian ini menggunakan rangka kerja FCMAE untuk pra-melatih ConvNeXt V2. Daripada paparan visual dalam Rajah 3 di bawah dan analisis jarak kosinus dalam Rajah 4, dapat diperhatikan bahawa ConvNeXt V2 berkesan mengurangkan masalah keruntuhan ciri. Nilai jarak kosinus adalah tinggi secara konsisten, menunjukkan bahawa kepelbagaian ciri boleh dikekalkan semasa pemindahan lapisan rangkaian. Ini serupa dengan model ViT yang dipralatih menggunakan MAE. Ini menunjukkan bahawa tingkah laku pembelajaran ConvNeXt V2 adalah serupa dengan ViT di bawah rangka kerja pra-latihan imej topeng yang serupa.
Kajian ini menilai lagi prestasi penalaan halus, dan hasilnya ditunjukkan dalam jadual di bawah.
Apabila dilengkapi dengan GRN, model pra-latihan FCMAE boleh mengatasi prestasi model diselia yang dilatih menggunakan 300 zaman dengan ketara. GRN meningkatkan kualiti perwakilan dengan meningkatkan kepelbagaian ciri, yang penting untuk pra-latihan berasaskan topeng dan tiada dalam model ConvNeXt V1. Perlu diingat bahawa peningkatan ini dicapai tanpa menambah overhed parameter tambahan dan tanpa meningkatkan FLOPS.
Akhir sekali, kajian ini juga mengkaji kepentingan GRN dalam pra-latihan dan penalaan halus. Seperti yang ditunjukkan dalam Jadual 2(f) di bawah, prestasi menurun dengan ketara sama ada GRN dialih keluar daripada penalaan halus atau GRN yang baru dimulakan ditambah semasa penalaan halus, menunjukkan bahawa GRN adalah penting dalam kedua-dua pra-latihan dan penalaan halus.
Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih lanjut butiran penyelidikan.
Atas ialah kandungan terperinci ConvNeXt V2 ada di sini, hanya menggunakan seni bina lilitan yang paling mudah, prestasinya tidak kalah dengan Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
