DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!-AI-php.cn

Jadual Kandungan

Pengenalan

Kaedah

Seni Bina Rangkaian

Pengekod

Dekoder

Ciri berbilang skala

Eksperimen

Ringkasan

Rumah

Peranti teknologi

DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 19, 2024 pm 04:22 PM

bingkai hujung ke hujung susunan overflow

DECO: 纯卷积Query-Based检测器超越DETR！

Tajuk: DECO: Pengesanan Objek Hujung-ke-Hujung Berasaskan Pertanyaan dengan ConvNets

Kertas: https://arxiv.org/pdf/2312.13735.pdf

Kod sumber: https://github.com / xinghaochen/DECO

Teks asal: https://zhuanlan.zhihu.com/p/686011746@王云河

Pengenalan

Selepas pengenalan Pengesanan Transformer (DETR), terdapat pengesanan sasaran , dan banyak kajian seterusnya memfokuskan kepada ketepatan Penambahbaikan telah dibuat berbanding DETR asal dari segi kelajuan dan kelajuan. Walau bagaimanapun, perbincangan diteruskan sama ada Transformers boleh menguasai sepenuhnya bidang visual. Beberapa kajian seperti ConvNeXt dan RepLKNet menunjukkan bahawa struktur CNN masih mempunyai potensi besar dalam bidang penglihatan.

DECO: 纯卷积Query-Based检测器超越DETR！

Apa yang kami terokai dalam kerja ini ialah cara menggunakan seni bina konvolusi tulen untuk mendapatkan pengesan rangka kerja seperti DETR dengan prestasi tinggi. Sebagai penghormatan kepada DETR, kami memanggil pendekatan kami DECO (Detection ConvNets). Menggunakan tetapan struktur yang serupa dengan DETR dan menggunakan Tulang Belakang yang berbeza, DECO mencapai 38.6% dan 40.8% AP pada COCO dan 35 FPS dan 28 FPS pada V100, mencapai prestasi yang lebih baik daripada DETR. Dipasangkan dengan modul seperti ciri berbilang skala yang serupa dengan RT-DETR, DECO mencapai kelajuan 47.8% AP dan 34 FPS Prestasi keseluruhan mempunyai kelebihan yang baik berbanding dengan banyak kaedah peningkatan DETR.

Kaedah

Seni Bina Rangkaian

DECO: 纯卷积Query-Based检测器超越DETR！

Ciri utama DETR ialah menggunakan struktur Transformer Encoder-Decoder untuk berinteraksi dengan imej input menggunakan satu set Pertanyaan untuk berinteraksi dengan ciri imej, dan boleh terus mengeluarkan yang ditentukan bilangan bingkai pengesanan Ini menghapuskan pergantungan pada operasi pasca pemprosesan seperti NMS. Keseluruhan seni bina DECO yang kami cadangkan adalah serupa dengan DETR Ia juga termasuk Backbone untuk pengekstrakan ciri imej, struktur Pengekod-Penyahkod untuk berinteraksi dengan Pertanyaan, dan akhirnya menghasilkan bilangan hasil pengesanan tertentu. Satu-satunya perbezaan ialah Pengekod dan Penyahkod DECO adalah struktur konvolusi semata-mata, jadi DECO ialah pengesan hujung-ke-hujung Berdasarkan Pertanyaan yang terdiri daripada lilitan tulen.

Pengekod

Penggantian struktur Pengekod DETR agak mudah Kami memilih untuk menggunakan 4 Blok ConvNeXt untuk membentuk struktur Pengekod. Secara khusus, setiap lapisan Pengekod dilaksanakan dengan menyusun lilitan kedalaman 7x7, lapisan LayerNorm, lilitan 1x1, fungsi pengaktifan GELU dan satu lagi lilitan 1x1. Di samping itu, dalam DETR, kerana seni bina Transformer mempunyai invarian permutasi pada input, pengekodan kedudukan perlu ditambah pada input setiap lapisan pengekod, tetapi untuk Pengekod yang terdiri daripada konvolusi, tidak perlu menambah sebarang pengekodan kedudukan

Dekoder

Sebagai perbandingan, penggantian Dekoder adalah jauh lebih rumit. Fungsi utama Dekoder adalah untuk berinteraksi sepenuhnya dengan ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Penyahkod terutamanya merangkumi dua input: output ciri Pengekod dan satu set vektor pertanyaan yang boleh dipelajari (Pertanyaan). Kami membahagikan struktur utama Penyahkod kepada dua modul: Modul Interaksi Kendiri (SIM) dan Modul Interaksi Silang (CIM).

DECO: 纯卷积Query-Based检测器超越DETR！

Di sini, modul SIM menyepadukan terutamanya output Pertanyaan dan lapisan Penyahkod atas Bahagian struktur ini boleh terdiri daripada beberapa lapisan konvolusi, menggunakan lilitan mendalam 9x9 dan lilitan 1x1 dalam dimensi ruang dan dimensi saluran. Lakukan pertukaran maklumat untuk mendapatkan sepenuhnya maklumat sasaran yang diperlukan dan hantar ke modul CIM seterusnya untuk pengekstrakan ciri pengesanan sasaran selanjutnya. Pertanyaan ialah satu set vektor yang dimulakan secara rawak Nombor ini menentukan bilangan bingkai pengesanan yang akhirnya dikeluarkan oleh pengesan nilai khususnya boleh dilaraskan mengikut keperluan sebenar. Untuk DECO, kerana semua struktur terdiri daripada konvolusi, kami menukar Pertanyaan kepada dua dimensi Contohnya, 100 Pertanyaan boleh menjadi 10x10 dimensi.

Fungsi utama modul CIM adalah untuk berinteraksi sepenuhnya antara ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Untuk struktur Transformer, adalah mudah untuk mencapai matlamat ini dengan menggunakan mekanisme perhatian silang, tetapi untuk struktur lilitan, cara berinteraksi sepenuhnya dengan kedua-dua ciri adalah kesukaran terbesar.

Untuk menggabungkan ciri global keluaran SIM dan keluaran pengekod dengan saiz yang berbeza, kami mesti menjajarkan kedua-duanya secara spatial dan kemudian menggabungkannya Pertama, kami melakukan pensampelan jiran terdekat pada keluaran SIM:

DECO: 纯卷积Query-Based检测器超越DETR！

supaya selepas peningkatan. Ciri-ciri mempunyai saiz yang sama seperti ciri global yang dikeluarkan oleh Pengekod, dan kemudian ciri-ciri yang telah dicontohi digabungkan dengan ciri-ciri global yang dikeluarkan oleh pengekod, dan kemudian memasuki lilitan mendalam untuk interaksi ciri dan kemudian menambah input baki:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhirnya ciri yang berinteraksi ditukar untuk maklumat saluran melalui FNN, dan kemudian dikumpulkan ke nombor sasaran untuk mendapatkan pembenaman output penyahkod:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhir sekali, kami menghantar pembenaman output yang diperoleh ke kepala pengesanan untuk pengelasan seterusnya dan regresi.

Ciri berbilang skala

Seperti DETR asal, DECO yang diperolehi oleh rangka kerja di atas mempunyai kelemahan biasa, iaitu kekurangan ciri berbilang skala, yang memberi impak yang besar pada pengesanan sasaran ketepatan tinggi. DETR boleh ubah bentuk menyepadukan ciri skala berbeza dengan menggunakan modul perhatian boleh ubah bentuk berbilang skala, tetapi kaedah ini digandingkan dengan kuat dengan pengendali Perhatian, jadi ia tidak boleh digunakan terus pada DECO kami. Untuk membolehkan DECO mengendalikan ciri berbilang skala, kami menggunakan modul gabungan ciri berskala silang yang dicadangkan oleh RT-DETR selepas keluaran ciri oleh Penyahkod. Malah, satu siri kaedah penambahbaikan telah diperolehi selepas kelahiran DETR Kami percaya bahawa banyak strategi juga boleh digunakan untuk DECO, dan kami berharap orang yang berminat dapat membincangkannya bersama.

Eksperimen

Kami menjalankan eksperimen pada COCO dan membandingkan DECO dan DETR sambil mengekalkan seni bina utama tidak berubah, seperti memastikan bilangan Pertanyaan konsisten, mengekalkan bilangan lapisan Penyahkod tidak berubah, dsb., dan hanya menukar Transformer dalam DETR The struktur digantikan oleh struktur konvolusi kami seperti yang diterangkan di atas. Dapat dilihat bahawa DECO telah mencapai ketepatan yang lebih baik dan pertukaran yang lebih cepat daripada DETR.

DECO: 纯卷积Query-Based检测器超越DETR！

Kami juga membandingkan DECO dengan ciri berbilang skala dan lebih banyak kaedah pengesanan sasaran, termasuk banyak varian DETR Seperti yang anda boleh lihat daripada rajah di bawah, DECO telah mencapai keputusan yang sangat baik, mencapai prestasi yang lebih baik daripada banyak pengesan sebelumnya .

DECO: 纯卷积Query-Based检测器超越DETR！

Struktur DECO dalam artikel telah menjalani banyak eksperimen dan visualisasi ablasi, termasuk strategi gabungan khusus (penambahan, pendaraban titik, Concat) yang dipilih dalam Penyahkod dan cara menetapkan dimensi Pertanyaan untuk mencapai hasil yang optimum. dan lain-lain, terdapat juga beberapa penemuan menarik Untuk hasil dan perbincangan yang lebih terperinci, sila rujuk artikel asal.

Ringkasan

Kertas ini bertujuan untuk mengkaji sama ada adalah mungkin untuk membina rangka kerja pengesanan objek hujung ke hujung berasaskan pertanyaan tanpa menggunakan seni bina Transformer yang kompleks. Rangka kerja pengesanan baharu yang dipanggil Detection ConvNet (DECO) dicadangkan, termasuk rangkaian tulang belakang dan struktur penyahkod-pengekod konvolusi. Dengan mereka bentuk pengekod DECO dengan teliti dan memperkenalkan mekanisme baru, penyahkod DECO dapat mencapai interaksi antara pertanyaan sasaran dan ciri imej melalui lapisan konvolusi. Perbandingan dibuat dengan pengesan sebelumnya pada penanda aras COCO, dan walaupun mudah, DECO mencapai prestasi kompetitif dari segi ketepatan pengesanan dan kelajuan larian. Khususnya, menggunakan tulang belakang ResNet-50 dan ConvNeXt-Tiny, DECO mencapai 38.6% dan 40.8% AP pada set pengesahan COCO masing-masing pada 35 dan 28 FPS, mengatasi prestasi model DET. Diharapkan DECO memberikan perspektif baharu dalam mereka bentuk rangka kerja pengesanan objek.

Atas ialah kandungan terperinci DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7316

Tutorial Java

1625

Tutorial CakePHP

1349

Tutorial Laravel

1261

Tutorial PHP

1208

Tunjukkan Lagi

Related knowledge

Harga Bitcoin sejak kelahirannya 2009-2025 Ringkasan paling lengkap harga sejarah BTC Jan 15, 2025 pm 08:11 PM

Sejak penubuhannya pada tahun 2009, Bitcoin telah menjadi peneraju dalam dunia mata wang kripto dan harganya telah mengalami turun naik yang besar. Untuk memberikan gambaran keseluruhan sejarah yang komprehensif, artikel ini menyusun data harga Bitcoin dari 2009 hingga 2025, meliputi peristiwa pasaran utama, perubahan dalam sentimen pasaran dan faktor penting yang mempengaruhi pergerakan harga.

Apakah sepuluh platform perdagangan mata wang maya? Feb 20, 2025 pm 02:15 PM

Dengan populariti kriptografi, platform perdagangan mata wang maya telah muncul. Sepuluh platform perdagangan mata wang maya teratas di dunia disenaraikan seperti berikut mengikut jumlah transaksi dan bahagian pasaran: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Platform ini menawarkan pelbagai perkhidmatan, dari pelbagai pilihan cryptocurrency untuk perdagangan derivatif, sesuai untuk peniaga yang berbeza -beza.

Cara menyesuaikan pertukaran terbuka bijan ke dalam bahasa Cina Mar 04, 2025 pm 11:51 PM

Bagaimana cara menyesuaikan pertukaran terbuka bijan ke bahasa Cina? Tutorial ini merangkumi langkah -langkah terperinci mengenai komputer dan telefon bimbit Android, dari penyediaan awal hingga proses operasi, dan kemudian menyelesaikan masalah biasa, membantu anda dengan mudah menukar antara muka pertukaran terbuka ke Cina dan cepat memulakan dengan platform perdagangan.

Senarai harga sejarah sejak kelahiran carta Trend Harga Sejarah Bitcoin BTC (Ringkasan Terkini) Feb 11, 2025 pm 11:36 PM

Sejak penciptaannya pada tahun 2009, harga Bitcoin telah mengalami beberapa turun naik utama, meningkat kepada $ 69,044.77 pada November 2021 dan jatuh ke $ 3,191.22 pada Disember 2018. Sehingga Disember 2024, harga terkini telah melebihi $ 100,204.

Gambaran keseluruhan harga sejarah Bitcoin sejak kelahirannya Koleksi lengkap trend harga sejarah Bitcoin. Jan 15, 2025 pm 08:14 PM

Bitcoin, sebagai mata wang kripto, telah mengalami turun naik pasaran yang ketara sejak penubuhannya. Artikel ini akan memberikan gambaran keseluruhan harga sejarah Bitcoin sejak kelahirannya untuk membantu pembaca memahami arah aliran harga dan detik pentingnya. Dengan menganalisis data harga sejarah Bitcoin, kami dapat memahami penilaian pasaran terhadap nilainya, faktor yang mempengaruhi turun naiknya, dan menyediakan asas untuk keputusan pelaburan masa hadapan.

10 platform perdagangan cryptocurrency teratas, sepuluh aplikasi platform perdagangan mata wang yang disyorkan Mar 17, 2025 pm 06:03 PM

Sepuluh platform perdagangan cryptocurrency teratas termasuk: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Bagaimanakah keluk pembelajaran rangka kerja PHP berbanding rangka kerja bahasa lain? Jun 06, 2024 pm 12:41 PM

Keluk pembelajaran rangka kerja PHP bergantung pada kecekapan bahasa, kerumitan rangka kerja, kualiti dokumentasi dan sokongan komuniti. Keluk pembelajaran rangka kerja PHP adalah lebih tinggi jika dibandingkan dengan rangka kerja Python dan lebih rendah jika dibandingkan dengan rangka kerja Ruby. Berbanding dengan rangka kerja Java, rangka kerja PHP mempunyai keluk pembelajaran yang sederhana tetapi masa yang lebih singkat untuk bermula.

Sepuluh pertukaran teratas dalam bulatan mata wang China Jul 23, 2024 pm 06:25 PM

Sepuluh pertukaran mata wang kripto di China disusun mengikut jumlah dagangan seperti berikut: 2. Huobi 4. Anyin; .JEX; 10.LBank. Pertukaran ini menawarkan pelbagai pasangan dagangan, yuran dagangan yang rendah dan perkhidmatan profesional yang disesuaikan dengan keperluan pengguna tertentu.

See all articles