


Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap
1. Latar Belakang
Sejak bertahun-tahun, tiga rangkaian tulang belakang visual, Transformer, Large-kernel CNN, dan MLP, telah mencapai kejayaan besar dalam pelbagai tugas penglihatan komputer, terutamanya disebabkan oleh skala globalnya yang cekap. untuk menggabungkan maklumat
Transformer, CNN dan MLP kini merupakan tiga rangkaian neural arus perdana, dan mereka masing-masing menggunakan kaedah berbeza untuk mencapai gabungan Token global. Dalam rangkaian Transformer, mekanisme perhatian kendiri menggunakan korelasi pasangan kunci pertanyaan sebagai berat gabungan Token. CNN mencapai prestasi yang serupa dengan Transformer dengan mengembangkan saiz kernel lilitan. MLP melaksanakan satu lagi paradigma yang berkuasa antara semua token melalui ketersambungan penuh. Walaupun kaedah ini berkesan, ia mempunyai kerumitan pengiraan yang tinggi (O(N^2)) dan sukar digunakan pada peranti dengan storan dan keupayaan pengkomputeran terhad, sekali gus mengehadkan skop aplikasi banyak model
2 : Ringan, global, adaptif
Untuk menyelesaikan masalah pengiraan yang mahal, penyelidik membangunkan gabungan token global yang cekap dipanggil algoritma Adaptive Fourier Filter (AFF). Algoritma ini menggunakan transformasi Fourier untuk menukar set Token ke dalam domain frekuensi, dan mempelajari topeng penapis yang mampu kandungan adaptif dalam domain frekuensi untuk melaksanakan operasi penapisan adaptif pada set Token yang ditukar kepada ruang domain frekuensi
Penapis Frekuensi Suaian : Pembancuh Token Global yang Cekap
Klik pautan ini untuk mengakses teks asal: https://arxiv.org/abs/2307.14008
Mengikut teorem konvolusi domain AFF Token Operasi setara ialah operasi lilitan yang dilakukan dalam domain asal, yang setara dengan operasi produk Hadamard yang dilakukan dalam domain Fourier. Ini bermakna Pengadun Token AFF boleh mencapai gabungan token global yang boleh suai kandungan dengan menggunakan kernel lilitan dinamik dalam domain asal, yang resolusi spatialnya adalah sama dengan saiz set token (seperti ditunjukkan dalam subgambar kanan rajah di bawah)
Adalah diketahui bahawa lilitan dinamik adalah mahal dari segi pengiraan, terutamanya apabila menggunakan kernel lilitan dinamik dengan resolusi spatial yang besar Kos ini nampaknya tidak boleh diterima untuk reka bentuk rangkaian yang cekap/ringan. Walau bagaimanapun, Pengadun Token AFF yang dicadangkan dalam artikel ini secara serentak boleh memenuhi keperluan di atas dalam pelaksanaan yang setara dengan penggunaan kuasa yang rendah, mengurangkan kerumitan daripada O (N^2) kepada O (N log N), dengan itu meningkatkan kecekapan pengiraan dengan ketara
Rajah skema 1: Menunjukkan struktur modul AFF dan rangkaian AFFNet
3 AFFNet: tulang belakang baharu rangkaian visual ringan
Pengadun saraf utama menggunakan AFF TokenBy. , Para penyelidik berjaya membina rangkaian saraf ringan yang dipanggil AFFNet. Hasil eksperimen yang kaya menunjukkan bahawa AFF Token Mixer mencapai keseimbangan ketepatan dan kecekapan yang sangat baik dalam pelbagai tugas visual, termasuk pengecaman semantik visual dan tugas ramalan yang padat
4 Keputusan eksperimen
Penyelidik menilai prestasi AFF. Token Mixer dan AFFNet pada pelbagai tugas seperti pengecaman semantik visual, pembahagian dan pengesanan dibandingkan dengan rangkaian tulang belakang visual ringan paling canggih dalam bidang penyelidikan semasa. Keputusan eksperimen menunjukkan bahawa reka bentuk model berfungsi dengan baik dalam pelbagai tugas visual, mengesahkan potensi AFF Token Mixer sebagai generasi baharu pengendali gabungan token yang ringan dan cekap
Berbanding dengan SOTA, Rajah 2 menunjukkan Acc -Keluk Param dan Acc-FLOPs pada dataset ImageNet-1K
Membandingkan hasil kaedah terkini dengan dataset ImageNet-1K, lihat Jadual 1
Jadual 2 menunjukkan Perbandingan pengesanan visual dan tugasan segmentasi dengan teknik terkini
🎜5. Kesimpulan
Kajian ini membuktikan bahawa transformasi domain frekuensi dalam ruang terpendam memainkan peranan penting dalam gabungan token adaptif global dan merupakan pelaksanaan bersamaan yang cekap dan berkuasa rendah. Ia menyediakan idea penyelidikan baharu untuk reka bentuk pengendali gabungan Token dalam rangkaian saraf, dan menyediakan ruang pembangunan baharu untuk menggunakan model rangkaian saraf pada peranti tepi, terutamanya apabila keupayaan storan dan pengkomputeran adalah terhad
Atas ialah kandungan terperinci Tulang belakang baharu rangkaian visual ringan: pengadun token pengendali Fourier yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Pendaraban Matriks Umum (GEMM) ialah bahagian penting dalam banyak aplikasi dan algoritma, dan juga merupakan salah satu petunjuk penting untuk menilai prestasi perkakasan komputer. Penyelidikan mendalam dan pengoptimuman pelaksanaan GEMM boleh membantu kami lebih memahami pengkomputeran berprestasi tinggi dan hubungan antara perisian dan sistem perkakasan. Dalam sains komputer, pengoptimuman GEMM yang berkesan boleh meningkatkan kelajuan pengkomputeran dan menjimatkan sumber, yang penting untuk meningkatkan prestasi keseluruhan sistem komputer. Pemahaman yang mendalam tentang prinsip kerja dan kaedah pengoptimuman GEMM akan membantu kami menggunakan potensi perkakasan pengkomputeran moden dengan lebih baik dan menyediakan penyelesaian yang lebih cekap untuk pelbagai tugas pengkomputeran yang kompleks. Dengan mengoptimumkan prestasi GEMM

WORD adalah pemproses perkataan yang berkuasa Kita boleh menggunakan perkataan untuk mengedit pelbagai teks Dalam jadual Excel, kita telah menguasai kaedah pengiraan penambahan, penolakan dan penggandaan Jadi jika kita perlu mengira penambahan nilai dalam jadual Word. Bagaimana untuk menolak pengganda? Bolehkah saya hanya menggunakan kalkulator untuk mengiranya? Jawapannya sudah tentu tidak, WORD juga boleh melakukannya. Hari ini saya akan mengajar anda cara menggunakan formula untuk mengira operasi asas seperti penambahan, penolakan, pendaraban dan pembahagian dalam jadual dalam dokumen Word. Jadi, hari ini izinkan saya menunjukkan secara terperinci cara mengira penambahan, penolakan, pendaraban dan pembahagian dalam dokumen WORD? Langkah 1: Buka WORD, klik [Jadual] di bawah [Sisipkan] pada bar alat dan masukkan jadual dalam menu lungsur.

Model bahasa berskala besar (LLM) telah menunjukkan keupayaan yang menarik dalam banyak tugas penting, termasuk pemahaman bahasa semula jadi, penjanaan bahasa dan penaakulan yang kompleks, dan telah memberi kesan yang mendalam kepada masyarakat. Walau bagaimanapun, keupayaan cemerlang ini memerlukan sumber latihan yang ketara (ditunjukkan di sebelah kiri) dan masa inferens yang panjang (ditunjukkan di sebelah kanan). Oleh itu, penyelidik perlu membangunkan cara teknikal yang berkesan untuk menyelesaikan masalah kecekapan mereka. Di samping itu, seperti yang dapat dilihat dari sebelah kanan rajah, beberapa LLM (Model Bahasa) yang cekap seperti Mistral-7B telah berjaya digunakan dalam reka bentuk dan penggunaan LLM. LLM yang cekap ini boleh mengurangkan memori inferens dengan ketara sambil mengekalkan ketepatan yang serupa dengan LLaMA1-33B

Cara menggunakan fungsi count() Python untuk mengira bilangan elemen dalam senarai memerlukan contoh kod khusus Sebagai bahasa pengaturcaraan yang berkuasa dan mudah dipelajari, Python menyediakan banyak fungsi terbina dalam untuk mengendalikan struktur data yang berbeza. Salah satunya ialah fungsi count(), yang boleh digunakan untuk mengira bilangan elemen dalam senarai. Dalam artikel ini, kami akan menerangkan cara menggunakan fungsi count() secara terperinci dan memberikan contoh kod khusus. Fungsi count() ialah fungsi terbina dalam Python, digunakan untuk mengira sesuatu

Diberi dua rentetan str_1 dan str_2. Matlamatnya adalah untuk mengira bilangan kejadian subrentetan str2 dalam rentetan str1 menggunakan prosedur rekursif. Fungsi rekursif ialah fungsi yang memanggil dirinya dalam definisinya. Jika str1 ialah "Iknowthatyouknowthatiknow" dan str2 ialah "tahu" bilangan kejadian ialah -3 Mari kita fahami melalui contoh. Contohnya, input str1="TPisTPareTPamTP", str2="TP";

Dalam C#, terdapat perpustakaan kelas Matematik, yang mengandungi banyak fungsi matematik. Ini termasuk fungsi Math.Pow, yang mengira kuasa, yang boleh membantu kita mengira kuasa nombor tertentu. Penggunaan fungsi Math.Pow adalah sangat mudah, anda hanya perlu menentukan asas dan eksponen. Sintaksnya adalah seperti berikut: Math.Pow(base,exponent); dengan asas mewakili asas dan eksponen mewakili eksponen. Fungsi ini mengembalikan hasil jenis berganda, iaitu hasil pengiraan kuasa. Jom

Proses 3nm, prestasi melepasi H100! Baru-baru ini, media asing DigiTimes mengumumkan bahawa Nvidia sedang membangunkan GPU generasi akan datang, B100, dengan nama kod "Blackwell" Dikatakan bahawa sebagai produk untuk aplikasi kecerdasan buatan (AI) dan pengkomputeran berprestasi tinggi (HPC). , B100 akan menggunakan proses proses 3nm TSMC, serta reka bentuk modul berbilang cip (MCM) yang lebih kompleks, dan akan muncul pada suku keempat 2024. Bagi Nvidia, yang memonopoli lebih daripada 80% pasaran GPU kecerdasan buatan, ia boleh menggunakan B100 untuk menyerang semasa seterika panas dan seterusnya menyerang pencabar seperti AMD dan Intel dalam gelombang penggunaan AI ini. Menurut anggaran NVIDIA, menjelang 2027, nilai output medan ini dijangka mencapai lebih kurang

Pengenalan Program Java untuk mengira luas segi tiga menggunakan penentu adalah program ringkas dan cekap yang boleh mengira luas segitiga diberi koordinat tiga bucu. Program ini berguna untuk sesiapa sahaja yang belajar atau bekerja dengan geometri, kerana ia menunjukkan cara menggunakan pengiraan aritmetik dan algebra asas dalam Java, serta cara menggunakan kelas Pengimbas untuk membaca input pengguna. Program ini menggesa pengguna untuk koordinat tiga titik segi tiga, yang kemudiannya dibaca dan digunakan untuk mengira penentu matriks koordinat. Gunakan nilai mutlak penentu untuk memastikan kawasan sentiasa positif, kemudian gunakan formula untuk mengira luas segi tiga dan memaparkannya kepada pengguna. Program ini boleh diubah suai dengan mudah untuk menerima input dalam format yang berbeza atau untuk melakukan pengiraan tambahan, menjadikannya alat serba boleh untuk pengiraan geometri. pangkat penentu
