DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!
Tajuk: DECO: Pengesanan Objek Hujung-ke-Hujung Berasaskan Pertanyaan dengan ConvNets
Kertas: https://arxiv.org/pdf/2312.13735.pdf
Kod sumber: https://github.com / xinghaochen/DECO
Teks asal: https://zhuanlan.zhihu.com/p/686011746@王云河
Pengenalan
Selepas pengenalan Pengesanan Transformer (DETR), terdapat pengesanan sasaran , dan banyak kajian seterusnya memfokuskan kepada ketepatan Penambahbaikan telah dibuat berbanding DETR asal dari segi kelajuan dan kelajuan. Walau bagaimanapun, perbincangan diteruskan sama ada Transformers boleh menguasai sepenuhnya bidang visual. Beberapa kajian seperti ConvNeXt dan RepLKNet menunjukkan bahawa struktur CNN masih mempunyai potensi besar dalam bidang penglihatan.
Apa yang kami terokai dalam kerja ini ialah cara menggunakan seni bina konvolusi tulen untuk mendapatkan pengesan rangka kerja seperti DETR dengan prestasi tinggi. Sebagai penghormatan kepada DETR, kami memanggil pendekatan kami DECO
(Detection ConvNets). Menggunakan tetapan struktur yang serupa dengan DETR dan menggunakan Tulang Belakang yang berbeza, DECO mencapai 38.6% dan 40.8% AP pada COCO dan 35 FPS dan 28 FPS pada V100, mencapai prestasi yang lebih baik daripada DETR. Dipasangkan dengan modul seperti ciri berbilang skala yang serupa dengan RT-DETR, DECO mencapai kelajuan 47.8% AP dan 34 FPS Prestasi keseluruhan mempunyai kelebihan yang baik berbanding dengan banyak kaedah peningkatan DETR.
Kaedah
Seni Bina Rangkaian
Ciri utama DETR ialah menggunakan struktur Transformer Encoder-Decoder untuk berinteraksi dengan imej input menggunakan satu set Pertanyaan untuk berinteraksi dengan ciri imej, dan boleh terus mengeluarkan yang ditentukan bilangan bingkai pengesanan Ini menghapuskan pergantungan pada operasi pasca pemprosesan seperti NMS. Keseluruhan seni bina DECO yang kami cadangkan adalah serupa dengan DETR Ia juga termasuk Backbone untuk pengekstrakan ciri imej, struktur Pengekod-Penyahkod untuk berinteraksi dengan Pertanyaan, dan akhirnya menghasilkan bilangan hasil pengesanan tertentu. Satu-satunya perbezaan ialah Pengekod dan Penyahkod DECO adalah struktur konvolusi semata-mata, jadi DECO ialah pengesan hujung-ke-hujung Berdasarkan Pertanyaan yang terdiri daripada lilitan tulen.
Pengekod
Penggantian struktur Pengekod DETR agak mudah Kami memilih untuk menggunakan 4 Blok ConvNeXt untuk membentuk struktur Pengekod. Secara khusus, setiap lapisan Pengekod dilaksanakan dengan menyusun lilitan kedalaman 7x7, lapisan LayerNorm, lilitan 1x1, fungsi pengaktifan GELU dan satu lagi lilitan 1x1. Di samping itu, dalam DETR, kerana seni bina Transformer mempunyai invarian permutasi pada input, pengekodan kedudukan perlu ditambah pada input setiap lapisan pengekod, tetapi untuk Pengekod yang terdiri daripada konvolusi, tidak perlu menambah sebarang pengekodan kedudukan
Dekoder
Sebagai perbandingan, penggantian Dekoder adalah jauh lebih rumit. Fungsi utama Dekoder adalah untuk berinteraksi sepenuhnya dengan ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Penyahkod terutamanya merangkumi dua input: output ciri Pengekod dan satu set vektor pertanyaan yang boleh dipelajari (Pertanyaan). Kami membahagikan struktur utama Penyahkod kepada dua modul: Modul Interaksi Kendiri (SIM) dan Modul Interaksi Silang (CIM).
Di sini, modul SIM menyepadukan terutamanya output Pertanyaan dan lapisan Penyahkod atas Bahagian struktur ini boleh terdiri daripada beberapa lapisan konvolusi, menggunakan lilitan mendalam 9x9 dan lilitan 1x1 dalam dimensi ruang dan dimensi saluran. Lakukan pertukaran maklumat untuk mendapatkan sepenuhnya maklumat sasaran yang diperlukan dan hantar ke modul CIM seterusnya untuk pengekstrakan ciri pengesanan sasaran selanjutnya. Pertanyaan ialah satu set vektor yang dimulakan secara rawak Nombor ini menentukan bilangan bingkai pengesanan yang akhirnya dikeluarkan oleh pengesan nilai khususnya boleh dilaraskan mengikut keperluan sebenar. Untuk DECO, kerana semua struktur terdiri daripada konvolusi, kami menukar Pertanyaan kepada dua dimensi Contohnya, 100 Pertanyaan boleh menjadi 10x10 dimensi.
Fungsi utama modul CIM adalah untuk berinteraksi sepenuhnya antara ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Untuk struktur Transformer, adalah mudah untuk mencapai matlamat ini dengan menggunakan mekanisme perhatian silang, tetapi untuk struktur lilitan, cara berinteraksi sepenuhnya dengan kedua-dua ciri adalah kesukaran terbesar.
Untuk menggabungkan ciri global keluaran SIM dan keluaran pengekod dengan saiz yang berbeza, kami mesti menjajarkan kedua-duanya secara spatial dan kemudian menggabungkannya Pertama, kami melakukan pensampelan jiran terdekat pada keluaran SIM:
supaya selepas peningkatan. Ciri-ciri mempunyai saiz yang sama seperti ciri global yang dikeluarkan oleh Pengekod, dan kemudian ciri-ciri yang telah dicontohi digabungkan dengan ciri-ciri global yang dikeluarkan oleh pengekod, dan kemudian memasuki lilitan mendalam untuk interaksi ciri dan kemudian menambah input baki:
Akhirnya ciri yang berinteraksi ditukar untuk maklumat saluran melalui FNN, dan kemudian dikumpulkan ke nombor sasaran untuk mendapatkan pembenaman output penyahkod:
Akhir sekali, kami menghantar pembenaman output yang diperoleh ke kepala pengesanan untuk pengelasan seterusnya dan regresi.
Ciri berbilang skala
Seperti DETR asal, DECO yang diperolehi oleh rangka kerja di atas mempunyai kelemahan biasa, iaitu kekurangan ciri berbilang skala, yang memberi impak yang besar pada pengesanan sasaran ketepatan tinggi. DETR boleh ubah bentuk menyepadukan ciri skala berbeza dengan menggunakan modul perhatian boleh ubah bentuk berbilang skala, tetapi kaedah ini digandingkan dengan kuat dengan pengendali Perhatian, jadi ia tidak boleh digunakan terus pada DECO kami. Untuk membolehkan DECO mengendalikan ciri berbilang skala, kami menggunakan modul gabungan ciri berskala silang yang dicadangkan oleh RT-DETR selepas keluaran ciri oleh Penyahkod. Malah, satu siri kaedah penambahbaikan telah diperolehi selepas kelahiran DETR Kami percaya bahawa banyak strategi juga boleh digunakan untuk DECO, dan kami berharap orang yang berminat dapat membincangkannya bersama.
Eksperimen
Kami menjalankan eksperimen pada COCO dan membandingkan DECO dan DETR sambil mengekalkan seni bina utama tidak berubah, seperti memastikan bilangan Pertanyaan konsisten, mengekalkan bilangan lapisan Penyahkod tidak berubah, dsb., dan hanya menukar Transformer dalam DETR The struktur digantikan oleh struktur konvolusi kami seperti yang diterangkan di atas. Dapat dilihat bahawa DECO telah mencapai ketepatan yang lebih baik dan pertukaran yang lebih cepat daripada DETR.
Kami juga membandingkan DECO dengan ciri berbilang skala dan lebih banyak kaedah pengesanan sasaran, termasuk banyak varian DETR Seperti yang anda boleh lihat daripada rajah di bawah, DECO telah mencapai keputusan yang sangat baik, mencapai prestasi yang lebih baik daripada banyak pengesan sebelumnya .
Struktur DECO dalam artikel telah menjalani banyak eksperimen dan visualisasi ablasi, termasuk strategi gabungan khusus (penambahan, pendaraban titik, Concat) yang dipilih dalam Penyahkod dan cara menetapkan dimensi Pertanyaan untuk mencapai hasil yang optimum. dan lain-lain, terdapat juga beberapa penemuan menarik Untuk hasil dan perbincangan yang lebih terperinci, sila rujuk artikel asal.
Ringkasan
Kertas ini bertujuan untuk mengkaji sama ada adalah mungkin untuk membina rangka kerja pengesanan objek hujung ke hujung berasaskan pertanyaan tanpa menggunakan seni bina Transformer yang kompleks. Rangka kerja pengesanan baharu yang dipanggil Detection ConvNet (DECO) dicadangkan, termasuk rangkaian tulang belakang dan struktur penyahkod-pengekod konvolusi. Dengan mereka bentuk pengekod DECO dengan teliti dan memperkenalkan mekanisme baru, penyahkod DECO dapat mencapai interaksi antara pertanyaan sasaran dan ciri imej melalui lapisan konvolusi. Perbandingan dibuat dengan pengesan sebelumnya pada penanda aras COCO, dan walaupun mudah, DECO mencapai prestasi kompetitif dari segi ketepatan pengesanan dan kelajuan larian. Khususnya, menggunakan tulang belakang ResNet-50 dan ConvNeXt-Tiny, DECO mencapai 38.6% dan 40.8% AP pada set pengesahan COCO masing-masing pada 35 dan 28 FPS, mengatasi prestasi model DET. Diharapkan DECO memberikan perspektif baharu dalam mereka bentuk rangka kerja pengesanan objek.
Atas ialah kandungan terperinci DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Sejak penubuhannya pada tahun 2009, Bitcoin telah menjadi peneraju dalam dunia mata wang kripto dan harganya telah mengalami turun naik yang besar. Untuk memberikan gambaran keseluruhan sejarah yang komprehensif, artikel ini menyusun data harga Bitcoin dari 2009 hingga 2025, meliputi peristiwa pasaran utama, perubahan dalam sentimen pasaran dan faktor penting yang mempengaruhi pergerakan harga.

Dengan populariti kriptografi, platform perdagangan mata wang maya telah muncul. Sepuluh platform perdagangan mata wang maya teratas di dunia disenaraikan seperti berikut mengikut jumlah transaksi dan bahagian pasaran: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Platform ini menawarkan pelbagai perkhidmatan, dari pelbagai pilihan cryptocurrency untuk perdagangan derivatif, sesuai untuk peniaga yang berbeza -beza.

Bagaimana cara menyesuaikan pertukaran terbuka bijan ke bahasa Cina? Tutorial ini merangkumi langkah -langkah terperinci mengenai komputer dan telefon bimbit Android, dari penyediaan awal hingga proses operasi, dan kemudian menyelesaikan masalah biasa, membantu anda dengan mudah menukar antara muka pertukaran terbuka ke Cina dan cepat memulakan dengan platform perdagangan.

Sejak penciptaannya pada tahun 2009, harga Bitcoin telah mengalami beberapa turun naik utama, meningkat kepada $ 69,044.77 pada November 2021 dan jatuh ke $ 3,191.22 pada Disember 2018. Sehingga Disember 2024, harga terkini telah melebihi $ 100,204.

Bitcoin, sebagai mata wang kripto, telah mengalami turun naik pasaran yang ketara sejak penubuhannya. Artikel ini akan memberikan gambaran keseluruhan harga sejarah Bitcoin sejak kelahirannya untuk membantu pembaca memahami arah aliran harga dan detik pentingnya. Dengan menganalisis data harga sejarah Bitcoin, kami dapat memahami penilaian pasaran terhadap nilainya, faktor yang mempengaruhi turun naiknya, dan menyediakan asas untuk keputusan pelaburan masa hadapan.

Sepuluh platform perdagangan cryptocurrency teratas termasuk: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Keluk pembelajaran rangka kerja PHP bergantung pada kecekapan bahasa, kerumitan rangka kerja, kualiti dokumentasi dan sokongan komuniti. Keluk pembelajaran rangka kerja PHP adalah lebih tinggi jika dibandingkan dengan rangka kerja Python dan lebih rendah jika dibandingkan dengan rangka kerja Ruby. Berbanding dengan rangka kerja Java, rangka kerja PHP mempunyai keluk pembelajaran yang sederhana tetapi masa yang lebih singkat untuk bermula.

Sepuluh pertukaran mata wang kripto di China disusun mengikut jumlah dagangan seperti berikut: 2. Huobi 4. Anyin; .JEX; 10.LBank. Pertukaran ini menawarkan pelbagai pasangan dagangan, yuran dagangan yang rendah dan perkhidmatan profesional yang disesuaikan dengan keperluan pengguna tertentu.
