Rumah > Peranti teknologi > AI > Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

WBOY
Lepaskan: 2023-08-17 17:57:08
ke hadapan
1535 orang telah melayarinya

1. Latar Belakang

Sejak bertahun-tahun, tiga rangkaian tulang belakang visual, Transformer, Large-kernel CNN, dan MLP, telah mencapai kejayaan besar dalam pelbagai tugas penglihatan komputer, terutamanya disebabkan oleh skala globalnya yang cekap. untuk menggabungkan maklumat

Transformer, CNN dan MLP kini merupakan tiga rangkaian neural arus perdana, dan mereka masing-masing menggunakan kaedah berbeza untuk mencapai gabungan Token global. Dalam rangkaian Transformer, mekanisme perhatian kendiri menggunakan korelasi pasangan kunci pertanyaan sebagai berat gabungan Token. CNN mencapai prestasi yang serupa dengan Transformer dengan mengembangkan saiz kernel lilitan. MLP melaksanakan satu lagi paradigma yang berkuasa antara semua token melalui ketersambungan penuh. Walaupun kaedah ini berkesan, ia mempunyai kerumitan pengiraan yang tinggi (O(N^2)) dan sukar digunakan pada peranti dengan storan dan keupayaan pengkomputeran terhad, sekali gus mengehadkan skop aplikasi banyak model

2 : Ringan, global, adaptif

Untuk menyelesaikan masalah pengiraan yang mahal, penyelidik membangunkan gabungan token global yang cekap dipanggil algoritma Adaptive Fourier Filter (AFF). Algoritma ini menggunakan transformasi Fourier untuk menukar set Token ke dalam domain frekuensi, dan mempelajari topeng penapis yang mampu kandungan adaptif dalam domain frekuensi untuk melaksanakan operasi penapisan adaptif pada set Token yang ditukar kepada ruang domain frekuensi

Penapis Frekuensi Suaian : Pembancuh Token Global yang Cekap

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Klik pautan ini untuk mengakses teks asal: https://arxiv.org/abs/2307.14008

Mengikut teorem konvolusi domain AFF Token Operasi setara ialah operasi lilitan yang dilakukan dalam domain asal, yang setara dengan operasi produk Hadamard yang dilakukan dalam domain Fourier. Ini bermakna Pengadun Token AFF boleh mencapai gabungan token global yang boleh suai kandungan dengan menggunakan kernel lilitan dinamik dalam domain asal, yang resolusi spatialnya adalah sama dengan saiz set token (seperti ditunjukkan dalam subgambar kanan rajah di bawah)

Adalah diketahui bahawa lilitan dinamik adalah mahal dari segi pengiraan, terutamanya apabila menggunakan kernel lilitan dinamik dengan resolusi spatial yang besar Kos ini nampaknya tidak boleh diterima untuk reka bentuk rangkaian yang cekap/ringan. Walau bagaimanapun, Pengadun Token AFF yang dicadangkan dalam artikel ini secara serentak boleh memenuhi keperluan di atas dalam pelaksanaan yang setara dengan penggunaan kuasa yang rendah, mengurangkan kerumitan daripada O (N^2) kepada O (N log N), dengan itu meningkatkan kecekapan pengiraan dengan ketara

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Rajah skema 1: Menunjukkan struktur modul AFF dan rangkaian AFFNet

3 AFFNet: tulang belakang baharu rangkaian visual ringan

Pengadun saraf utama menggunakan AFF TokenBy. , Para penyelidik berjaya membina rangkaian saraf ringan yang dipanggil AFFNet. Hasil eksperimen yang kaya menunjukkan bahawa AFF Token Mixer mencapai keseimbangan ketepatan dan kecekapan yang sangat baik dalam pelbagai tugas visual, termasuk pengecaman semantik visual dan tugas ramalan yang padat

4 Keputusan eksperimen

Penyelidik menilai prestasi AFF. Token Mixer dan AFFNet pada pelbagai tugas seperti pengecaman semantik visual, pembahagian dan pengesanan dibandingkan dengan rangkaian tulang belakang visual ringan paling canggih dalam bidang penyelidikan semasa. Keputusan eksperimen menunjukkan bahawa reka bentuk model berfungsi dengan baik dalam pelbagai tugas visual, mengesahkan potensi AFF Token Mixer sebagai generasi baharu pengendali gabungan token yang ringan dan cekap

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Berbanding dengan SOTA, Rajah 2 menunjukkan Acc -Keluk Param dan Acc-FLOPs pada dataset ImageNet-1K

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Membandingkan hasil kaedah terkini dengan dataset ImageNet-1K, lihat Jadual 1

Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap

Jadual 2 menunjukkan Perbandingan pengesanan visual dan tugasan segmentasi dengan teknik terkini

🎜

5. Kesimpulan

Kajian ini membuktikan bahawa transformasi domain frekuensi dalam ruang terpendam memainkan peranan penting dalam gabungan token adaptif global dan merupakan pelaksanaan bersamaan yang cekap dan berkuasa rendah. Ia menyediakan idea penyelidikan baharu untuk reka bentuk pengendali gabungan Token dalam rangkaian saraf, dan menyediakan ruang pembangunan baharu untuk menggunakan model rangkaian saraf pada peranti tepi, terutamanya apabila keupayaan storan dan pengkomputeran adalah terhad

Atas ialah kandungan terperinci Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan