


Model penyebaran pengesanan sasaran pertama, lebih baik daripada Faster R-CNN dan DETR, mengesan terus daripada bingkai rawak
Model Penyebaran, sebagai SOTA baharu dalam model generasi dalam, telah mengatasi SOTA asal dalam tugas penjanaan imej: seperti GAN, dan mempunyai prestasi cemerlang dalam banyak bidang aplikasi, seperti penglihatan komputer, NLP, graf molekul pemodelan, pemodelan siri masa, dsb.
Baru-baru ini, pasukan Luo Ping dari Universiti Hong Kong dan penyelidik dari Tencent AI Lab bersama-sama mencadangkan rangka kerja baharu DiffusionDet, yang menggunakan model resapan untuk pengesanan sasaran. Setakat yang kita tahu, tiada penyelidikan yang berjaya menggunakan model resapan untuk pengesanan sasaran Boleh dikatakan ini adalah kerja pertama menggunakan model resapan untuk pengesanan sasaran.
Bagaimanakah prestasi DiffusionDet? Dinilai pada set data MS-COCO, menggunakan ResNet-50 sebagai tulang belakang, di bawah satu langkah pensampelan, DiffusionDet mencapai 45.5 AP, jauh lebih baik daripada Faster R-CNN (40.2 AP), DETR (42.0 AP) dan setanding dengan Jarang R-CNN (45.0 AP) adalah setara. Dengan menambah bilangan langkah pensampelan, prestasi DiffusionDet dipertingkatkan lagi kepada 46.2 AP. Di samping itu, DiffusionDet juga menunjukkan prestasi yang baik pada dataset LVIS, mencapai 42.1 AP menggunakan swing-base sebagai tulang belakang.
- Alamat kertas: https://arxiv.org/pdf/2211.09788.pdf
- Alamat projek https://github.com/ShoufaChen/DiffusionDet
Kajian ini mendapati bahawa dalam pengesanan sasaran tradisional Terdapat kelemahan kerana mereka bergantung pada set pertanyaan yang boleh dipelajari yang tetap. Kemudian penyelidik tertanya-tanya: Adakah terdapat cara mudah untuk melakukan pengesanan objek yang tidak memerlukan pertanyaan yang boleh dipelajari?
Untuk menjawab soalan ini, artikel ini mencadangkan DiffusionDet, rangka kerja yang boleh mengesan sasaran terus daripada set kotak rawak Ia merumuskan pengesanan sasaran sebagai proses dari kotak hingar ke kotak sasaran. Pendekatan hingar ke kotak ini tidak memerlukan sasaran heuristik terdahulu atau pertanyaan yang boleh dipelajari, yang memudahkan lagi calon sasaran dan memajukan saluran pengesanan.
Seperti yang ditunjukkan dalam Rajah 1 di bawah, kajian ini percaya bahawa paradigma hingar-ke-kotak adalah serupa dengan proses hingar-ke-imej dalam model resapan denoising, iaitu kelas berasaskan kemungkinan Model menggunakan model denoising yang dipelajari untuk mengeluarkan secara beransur-ansur hingar dalam imej untuk menghasilkan imej.
DiffusionDet menyelesaikan tugas pengesanan sasaran melalui model resapan, iaitu pengesanan dianggap sebagai kedudukan (koordinat tengah) dan saiz (lebar dan ketinggian) kotak sempadan dalam imej Tugas penjanaan ruang. Dalam fasa latihan, hingar Gaussian dikawal oleh jadual varians (jadual) ditambah pada kotak kebenaran tanah untuk mendapatkan kotak hingar. Kotak bising ini kemudiannya digunakan untuk memangkas kawasan menarik (RoI) daripada peta ciri output pengekod tulang belakang (seperti ResNet, Swin Transformer). Akhir sekali, ciri RoI ini dihantar ke penyahkod pengesanan, yang dilatih untuk meramalkan kotak kebenaran tanah tanpa bunyi. Dalam fasa inferens, DiffusionDet menjana kotak pembanding dengan menyongsangkan proses resapan yang dipelajari, yang melaraskan pengagihan sebelum hingar kepada pengagihan yang dipelajari pada kotak pembanding.
Gambaran Keseluruhan Kaedah
Memandangkan model resapan secara berulang menjana sampel data, model f_θ perlu dijalankan berbilang kali semasa fasa inferens. Walau bagaimanapun, menggunakan f_θ secara langsung pada imej asal pada setiap langkah lelaran adalah sukar dari segi pengiraan. Oleh itu, penyelidik mencadangkan untuk membahagikan keseluruhan model kepada dua bahagian, iaitu pengekod imej dan penyahkod pengesanan dijalankan sekali sahaja untuk mengekstrak perwakilan ciri mendalam daripada imej input asal Perhalusi ramalan kotak secara progresif dalam z_t.
Pengekod imej mengambil imej mentah sebagai input dan mengekstrak ciri peringkat tingginya untuk penyahkod pengesanan. Penyelidik menggunakan rangkaian neural konvolusi seperti ResNet dan model berasaskan Transformer seperti Swin untuk melaksanakan DiffusionDet. Sementara itu, rangkaian piramid ciri digunakan untuk menjana peta ciri berskala untuk rangkaian tulang belakang ResNet dan Swin.
Penyahkod pengesanan meminjam daripada Sparse R-CNN, mengambil satu set kotak cadangan sebagai input, memangkas ciri RoI daripada peta ciri yang dijana oleh pengekod imej dan menghantarnya ke kepala pengesanan untuk mendapatkan regresi kotak dan hasil klasifikasi. Tambahan pula, penyahkod pengesanan terdiri daripada 6 peringkat bertingkat.
Latihan
Semasa proses latihan, penyelidik mula-mula membina resapan dari kotak kebenaran tanah kepada bunyi proses kotak, dan kemudian latih model untuk membalikkan proses ini. Algoritma 1 di bawah menyediakan pseudokod proses latihan DiffusionDet.
Pengisian kotak nilai sebenar. Untuk penanda aras pengesanan objek moden, bilangan kejadian menarik selalunya berbeza dari imej ke imej. Oleh itu, kami mula-mula mengisi beberapa kotak tambahan ke kotak kebenaran tanah asal supaya semua kotak dijumlahkan kepada nombor tetap N_train. Mereka meneroka beberapa strategi pengisian, seperti mengulang kotak kebenaran tanah sedia ada, menggabungkan kotak rawak, atau kotak bersaiz imej.
bingkai rosak. Penyelidik menambah bunyi Gaussian pada kotak kebenaran tanah yang diisi. Skala hingar dikawal oleh α_t dalam formula berikut (1), yang menggunakan penjadualan kosinus menurun secara monoton pada langkah masa t yang berbeza.
Kehilangan latihan. Penyahkod pengesanan mengambil N_train kotak rosak sebagai input dan meramalkan N_train ramalan klasifikasi kelas dan koordinat kotak. Gunakan juga set ramalan kerugian pada set ramalan N_train.
Inferens
Proses inferens DiffusionDet ialah proses pensampelan denosing daripada hingar ke bingkai sasaran. Bermula dari kotak sampel daripada taburan Gaussian, model secara beransur-ansur memperhalusi ramalannya seperti ditunjukkan dalam Algoritma 2 di bawah.
Langkah pensampelan. Pada setiap langkah pensampelan, kotak rawak atau kotak anggaran daripada langkah pensampelan sebelumnya dihantar ke penyahkod pengesanan untuk meramalkan pengelasan kelas dan koordinat kotak. Selepas memperoleh kotak langkah semasa, DDIM digunakan untuk menganggarkan kotak langkah seterusnya. Kemas kini kotak
. Untuk menjadikan inferens lebih konsisten dengan latihan, kami mencadangkan strategi mengemas kini kotak untuk memulihkan kotak yang tidak dijangka dengan menggantikannya dengan kotak rawak. Khususnya, mereka mula-mula menapis kotak yang tidak dijangka dengan markah di bawah ambang tertentu, dan kemudian menggabungkan kotak yang tinggal dengan kotak rawak baharu yang disampel daripada taburan Gaussian.
Sekali untuk semua. Terima kasih kepada reka bentuk kotak rawak, penyelidik boleh menilai DiffusionDet menggunakan sebarang bilangan kotak rawak dan langkah pensampelan. Sebagai perbandingan, kaedah sebelumnya bergantung pada bilangan kotak pemprosesan yang sama semasa latihan dan penilaian, dan penyahkod pengesanan digunakan sekali sahaja dalam hantaran hadapan.
Hasil eksperimen
Dalam bahagian eksperimen, penyelidik mula-mula menunjukkan sifat Sekali untuk semua DiffusionDet, dan kemudian membandingkan DiffusionDet dengan keputusan sebelumnya dalam MS-COCO dan data LVIS Satu koleksi pengesan matang untuk perbandingan.
Ciri utama DiffusionDet adalah untuk melatih semua kejadian inferens sekali. Setelah model dilatih, ia boleh digunakan untuk menukar bilangan kotak dan langkah sampel dalam inferens, seperti yang ditunjukkan dalam Rajah 4 di bawah. DiffusionDet boleh mencapai ketepatan yang lebih tinggi dengan menggunakan lebih banyak kotak atau/dan lebih banyak langkah pemurnian, tetapi pada kos kependaman yang lebih tinggi. Oleh itu, kami menggunakan DiffusionDet tunggal untuk berbilang senario dan mencapai pertukaran ketepatan kelajuan yang diingini tanpa melatih semula rangkaian.
Para penyelidik membandingkan DiffusionDet dengan pengesan sebelumnya pada set data MS-COCO dan LVIS, seperti ditunjukkan dalam Jadual 1 di bawah. Mereka mula-mula membandingkan prestasi pengesanan objek DiffusionDet dengan pengesan sebelumnya pada MS-COCO. Keputusan menunjukkan bahawa DiffusionDet tanpa langkah penghalusan mencapai 45.5 AP menggunakan rangkaian tulang belakang ResNet-50, mengatasi kaedah matang sebelumnya seperti Faster R-CNN, RetinaNet, DETR dan Sparse R-CNN dengan margin yang besar. Dan DiffusionDet menunjukkan peningkatan yang stabil apabila saiz rangkaian tulang belakang diperbesarkan.
Jadual 2 di bawah menunjukkan keputusan pada set data LVIS yang lebih mencabar Ia boleh dilihat bahawa DiffusionDet menggunakan lebih banyak perincian keuntungan.
Sila rujuk kertas asal untuk mendapatkan butiran eksperimen lanjut.
Atas ialah kandungan terperinci Model penyebaran pengesanan sasaran pertama, lebih baik daripada Faster R-CNN dan DETR, mengesan terus daripada bingkai rawak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
