YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~
Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, seni bina rangkaian ringan baharu-Generalized Efficient Layer Aggregation Network (GELAN) berdasarkan perancangan laluan kecerunan direka.
Hasil pengesahan menunjukkan seni bina GELAN memperoleh kelebihan ketara melalui PGI pada model ringan. Eksperimen pada set data MS COCO menunjukkan bahawa GELAN yang digabungkan dengan PGI boleh mencapai penggunaan parameter yang lebih baik daripada kaedah terkini berdasarkan lilitan mendalam menggunakan hanya pengendali lilitan tradisional. Kepelbagaian PGI menjadikannya sesuai untuk pelbagai model, daripada model ringan hingga besar. Dengan PGI, model dimaklumkan sepenuhnya, jadi adalah mungkin untuk mencapai hasil yang lebih baik menggunakan model yang dilatih dari awal daripada model terkini yang dipralatih pada set data yang besar.
Alamat artikel: https://arxiv.org/pdf/2402.13616
Pautan kod: https://github.com/WongKinYiu/yolov9
Prestasi cemerlang
Penyasaran MSCO-masa sebenar Hasil perbandingan pengesan menunjukkan bahawa kaedah pengesanan sasaran berdasarkan GELAN dan PGI adalah jauh mendahului kaedah sebelumnya yang dilatih dari awal dari segi prestasi pengesanan sasaran. Kaedah baharu ini mengatasi RT DETR, yang bergantung pada pra-latihan set data yang besar, dari segi ketepatan, dan juga mengatasi prestasi YOLO MS berdasarkan reka bentuk lilitan mendalam dari segi penggunaan parameter. Keputusan ini menunjukkan bahawa kaedah GELAN dan PGI mempunyai potensi kelebihan dalam bidang pengesanan sasaran dan mungkin menjadi pilihan teknologi penting dalam penyelidikan dan aplikasi masa hadapan.
Sumbangan artikel ini
- secara teorinya menganalisis seni bina rangkaian neural dalam yang sedia ada dari perspektif fungsi boleh balik melalui proses ini, ia berjaya menerangkan banyak fenomena yang sukar dijelaskan pada masa lalu. PGI dan cawangan boleh balik tambahan juga direka bentuk berdasarkan analisis ini dan mencapai keputusan yang cemerlang.
- PGI yang direka bentuk menyelesaikan masalah penyeliaan mendalam hanya boleh digunakan untuk seni bina rangkaian saraf yang sangat dalam, menjadikan seni bina ringan baharu benar-benar boleh digunakan untuk kerja harian.
- GELAN yang direka bentuk hanya menggunakan lilitan tradisional untuk mencapai penggunaan parameter yang lebih tinggi daripada reka bentuk lilitan dalam berdasarkan teknologi terkini, sambil menunjukkan kelebihan hebat sebagai ringan, pantas dan tepat.
- Menggabungkan PGI dan GELAN yang dicadangkan, prestasi pengesanan objek YOLOv9 pada set data MS COCO jauh melebihi pengesan objek masa nyata sedia ada dalam semua aspek.
Kaedah
PGI dan seni bina rangkaian serta kaedah yang berkaitan
Seperti yang ditunjukkan dalam rajah di bawah, (a) Rangkaian Pengagregatan Laluan (PAN), (b) Lajur Boleh Balik (RevCol), (c) Penurunan Tradisional penyeliaan, dan (d) Maklumat Kecerunan Boleh Aturcara (PGI) yang dicadangkan oleh YOLOv9.
PGI terutamanya terdiri daripada tiga komponen:
- cawangan utama: seni bina untuk inferens;
- Cawangan boleh balik bantu: menjana kecerunan yang boleh dipercayai untuk penghantaran ke belakang dari cawangan utama :-
- ; cabang utama untuk mempelajari maklumat semantik pelbagai peringkat boleh atur cara.
Seni bina GELAN
ditunjukkan dalam rajah di bawah, (a) CSPNet, (b) ELAN, dan (c) GELAN yang dicadangkan oleh YOLOv9. Ia meniru CSPNet dan memanjangkan ELAN kepada GELAN, yang boleh menyokong sebarang blok pengkomputeran.
Perbandingan hasil
Perbandingan dengan teknik sedia ada
Jadual berikut menyenaraikan perbandingan YOLOv9 dengan pengesan objek masa nyata lain yang dilatih dari awal. Secara keseluruhan, kaedah berprestasi terbaik antara kaedah sedia ada ialah YOLO MS-S untuk model ringan, YOLO MS untuk model sederhana, YOLOv7 AF untuk model umum dan YOLOv8-X untuk model besar. Berbanding dengan YOLO MS model ringan dan sederhana, YOLOv9 mempunyai kira-kira 10% lebih sedikit parameter dan 5∼15% kurang pengiraan, tetapi masih mempunyai peningkatan 0.4∼0.6% dalam AP. Berbanding dengan YOLOv7 AF, YOLOv9-C mempunyai 42% lebih sedikit parameter dan 21% lebih sedikit pengiraan, tetapi mencapai AP yang sama (53%). Berbanding dengan YOLOv8-X, YOLOv9-X mempunyai 15% lebih sedikit parameter, 25% lebih sedikit pengiraan dan peningkatan ketara dalam AP, iaitu 1.7%. Keputusan perbandingan di atas menunjukkan bahawa YOLOv9 bertambah baik dengan ketara berbanding kaedah sedia ada dalam semua aspek.
Perbandingan dengan pengesan objek masa nyata tercanggih
Kaedah yang mengambil bahagian dalam perbandingan semuanya menggunakan ImageNet sebagai pemberat pra-latihan, termasuk RT DETR, RTMDet dan PP-YOLOE. YOLOv9 menggunakan kaedah latihan gores jelas melebihi prestasi kaedah lain.
Hasil tervisualisasi
Peta ciri (hasil visual): Output mengikut pemberat awal rawak PlainNet, ResNet, CSPNet dan GELAN pada kedalaman yang berbeza. Selepas 100 lapisan, ResNet mula menghasilkan output suapan ke hadapan yang cukup untuk mengelirukan maklumat sasaran. GELAN yang dicadangkan di sini masih boleh mengekalkan maklumat yang cukup lengkap pada lapisan ke-150, dan masih mempunyai keupayaan diskriminasi yang mencukupi pada lapisan ke-200.
Peta ciri PAN (hasil visualisasi) GELAN dan YOLOv9 (GELAN + PGI): Selepas pusingan pemanasan berat sebelah. GELAN mempunyai sedikit perbezaan awal, tetapi selepas menambah cawangan boleh balik PGI, ia lebih mampu memfokus pada objek sasaran.
Hasil visualisasi peta ciri keluaran berat awal rawak untuk seni bina rangkaian yang berbeza: (a) imej input, (b) PlainNet, (c) ResNet, (d) CSPNet dan (e) cadangan GELAN . Ia boleh dilihat daripada rajah bahawa dalam seni bina yang berbeza, tahap maklumat yang diberikan untuk mengira kehilangan fungsi objektif adalah berbeza, dan seni bina kami boleh mengekalkan maklumat yang paling lengkap dan memberikan maklumat kecerunan yang paling boleh dipercayai untuk mengira fungsi objektif.
Kesimpulan
Artikel ini mencadangkan untuk menggunakan PGI untuk menyelesaikan masalah kesesakan maklumat dan masalah bahawa mekanisme pengawasan yang mendalam tidak sesuai untuk rangkaian saraf ringan. GELAN direka bentuk, rangkaian neural yang cekap dan ringan. Dari segi pengesanan sasaran, GELAN menunjukkan prestasi yang kukuh dan stabil di bawah modul pengkomputeran dan tetapan kedalaman yang berbeza. Ia sememangnya boleh berskala secara meluas kepada model yang sesuai untuk pelbagai peranti inferens. Sebagai tindak balas kepada dua masalah di atas, pengenalan PGI membolehkan kedua-dua model ringan dan model dalam mencapai peningkatan yang ketara dalam ketepatan. YOLOv9, yang direka dengan menggabungkan PGI dan GELAN, menunjukkan daya saing yang kukuh. Reka bentuknya yang sangat baik membolehkan model dalam mengurangkan bilangan parameter sebanyak 49% dan jumlah pengiraan sebanyak 43% berbanding dengan YOLOv8, tetapi masih mencapai peningkatan AP 0.6% pada set data MS COCO.
Pautan asal: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
Atas ialah kandungan terperinci YOLO adalah abadi! YOLOv9 dikeluarkan: prestasi dan kelajuan SOTA~. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, rangka kerja rangkaian ringan baharu direka bentuk

Rangkaian saraf graf (GNN) telah mencapai kemajuan yang pesat dan luar biasa dalam beberapa tahun kebelakangan ini. Rangkaian saraf graf, juga dikenali sebagai pembelajaran dalam graf, pembelajaran perwakilan graf (pembelajaran perwakilan graf) atau pembelajaran dalam geometri, ialah topik penyelidikan yang paling pesat berkembang dalam bidang pembelajaran mesin, terutamanya pembelajaran mendalam. Tajuk perkongsian ini ialah "Asas, Sempadan dan Aplikasi GNN", yang terutamanya memperkenalkan kandungan umum buku komprehensif "Asas, Sempadan dan Aplikasi Rangkaian Neural Graf" yang disusun oleh sarjana Wu Lingfei, Cui Peng, Pei Jian dan Zhao Liang. 1. Pengenalan kepada rangkaian neural graf 1. Mengapa mengkaji graf? Graf ialah bahasa universal untuk menerangkan dan memodelkan sistem yang kompleks. Graf itu sendiri tidak rumit, ia terutamanya terdiri daripada tepi dan nod. Kita boleh menggunakan nod untuk mewakili mana-mana objek yang ingin kita modelkan, dan tepi untuk mewakili dua

Cip AI arus perdana semasa terutamanya dibahagikan kepada tiga kategori: GPU, FPGA dan ASIC. Kedua-dua GPU dan FPGA adalah seni bina cip yang agak matang pada peringkat awal dan merupakan cip kegunaan umum. ASIC ialah cip yang disesuaikan untuk senario AI tertentu. Industri telah mengesahkan bahawa CPU tidak sesuai untuk pengkomputeran AI, tetapi ia juga penting dalam aplikasi AI. Seni Bina Penyelesaian GPU Perbandingan antara GPU dan CPU CPU mengikut seni bina von Neumann, terasnya ialah penyimpanan atur cara/data dan pelaksanaan bersiri. Oleh itu, seni bina CPU memerlukan sejumlah besar ruang untuk meletakkan unit storan (Cache) dan unit kawalan (Control) Sebaliknya, unit pengkomputeran (ALU) hanya menduduki sebahagian kecil, jadi CPU berfungsi secara besar-besaran. pengkomputeran selari.

Dalam Minecraft, batu merah adalah item yang sangat penting. Ia adalah bahan unik dalam permainan Suis, obor batu merah, dan blok batu merah boleh memberikan tenaga seperti elektrik kepada wayar atau objek. Litar Redstone boleh digunakan untuk membina struktur untuk anda mengawal atau mengaktifkan jentera lain Ia sendiri boleh direka bentuk untuk bertindak balas kepada pengaktifan manual oleh pemain, atau mereka boleh mengeluarkan isyarat berulang kali atau bertindak balas kepada perubahan yang disebabkan oleh bukan pemain, seperti pergerakan makhluk. dan item Jatuh, pertumbuhan tumbuhan, siang dan malam, dan banyak lagi. Oleh itu, dalam dunia saya, redstone boleh mengawal pelbagai jenis jentera, daripada jentera ringkas seperti pintu automatik, suis lampu dan bekalan kuasa strob, kepada lif besar, ladang automatik, platform permainan kecil dan juga komputer binaan dalam permainan . Baru-baru ini, stesen B UP utama @

Apabila angin cukup kuat untuk meniup payung, drone itu stabil, seperti ini: Terbang dalam angin adalah sebahagian daripada terbang di udara Dari tahap yang besar, apabila juruterbang mendaratkan pesawat, kelajuan angin mungkin Membawa cabaran kepada mereka; pada tahap yang lebih kecil, angin kencang juga boleh menjejaskan penerbangan dron. Pada masa ini, dron sama ada diterbangkan dalam keadaan terkawal, tanpa angin, atau dikendalikan oleh manusia menggunakan alat kawalan jauh. Dron dikawal oleh penyelidik untuk terbang dalam formasi di langit terbuka, tetapi penerbangan ini biasanya dijalankan dalam keadaan dan persekitaran yang ideal. Walau bagaimanapun, agar dron melakukan tugasan yang perlu tetapi rutin secara autonomi, seperti menghantar pakej, ia mesti dapat menyesuaikan diri dengan keadaan angin dalam masa nyata. Untuk menjadikan dron lebih mudah dikendalikan apabila terbang mengikut angin, pasukan jurutera dari Caltech

Hari ini saya ingin berkongsi dengan anda sistem analisis atribut pejalan kaki. Pejalan kaki boleh dikenal pasti daripada aliran video video atau kamera dan sifat setiap orang boleh ditanda. Atribut yang dikenal pasti termasuk 10 kategori berikut Sesetengah kategori mempunyai berbilang atribut Jika orientasi badan ialah: depan, sisi dan belakang, jadi terdapat 26 atribut dalam latihan akhir. Melaksanakan sistem sedemikian memerlukan 3 langkah: Gunakan YOLOv5 untuk mengenal pasti pejalan kaki Gunakan ByteTrack untuk menjejak dan menandakan orang yang sama Latih rangkaian pengelasan imej berbilang label untuk mengenal pasti 26 atribut pejalan kaki 1. Pengecaman dan pengesanan pejalan kaki Pengecaman pejalan kaki menggunakan model pengesanan sasaran YOLOv5 , dan anda boleh melatih model itu sendiri, atau anda boleh terus menggunakan model pra-latihan YOLOv5. Penjejakan pejalan kaki menggunakan teknologi pengesanan berbilang objek (MOT

Model pembelajaran mendalam untuk tugas penglihatan (seperti klasifikasi imej) biasanya dilatih hujung ke hujung dengan data daripada domain visual tunggal (seperti imej semula jadi atau imej yang dijana komputer). Secara amnya, aplikasi yang menyelesaikan tugas penglihatan untuk berbilang domain perlu membina berbilang model untuk setiap domain yang berasingan dan melatihnya secara berasingan Data tidak dikongsi antara domain yang berbeza, setiap model akan mengendalikan data input tertentu. Walaupun ia berorientasikan kepada bidang yang berbeza, beberapa ciri lapisan awal antara model ini adalah serupa, jadi latihan bersama model ini adalah lebih cekap. Ini mengurangkan kependaman dan penggunaan kuasa, dan mengurangkan kos memori untuk menyimpan setiap parameter model Pendekatan ini dipanggil pembelajaran berbilang domain (MDL). Selain itu, model MDL juga boleh mengatasi prestasi tunggal

Alamat kertas: https://arxiv.org/abs/2307.09283 Alamat kod: https://github.com/THU-MIG/RepViTRepViT berprestasi baik dalam seni bina ViT mudah alih dan menunjukkan kelebihan yang ketara. Seterusnya, kami meneroka sumbangan kajian ini. Disebutkan dalam artikel bahawa ViT ringan biasanya berprestasi lebih baik daripada CNN ringan pada tugas visual, terutamanya disebabkan oleh modul perhatian diri berbilang kepala (MSHA) mereka yang membolehkan model mempelajari perwakilan global. Walau bagaimanapun, perbezaan seni bina antara ViT ringan dan CNN ringan belum dikaji sepenuhnya. Dalam kajian ini, penulis menyepadukan ViT ringan ke dalam yang berkesan
