Baru-baru ini, Makmal ReLER Universiti Zhejiang menggabungkan SAM secara mendalam dengan pembahagian video dan mengeluarkan Segmen-dan-Jejak Apa-apa (SAM-Track).
SAM-Track memberi SAM keupayaan untuk menjejak sasaran video dan menyokong pelbagai cara interaksi (titik, berus, teks).
Atas dasar ini, SAM-Track menyatukan berbilang tugas pembahagian video tradisional, mencapai penjejakan segmentasi satu klik bagi mana-mana sasaran dalam mana-mana video dan mengekstrapolasi pembahagian video tradisional kepada pembahagian Video universal.
SAM-Track mempunyai prestasi cemerlang dan stabil boleh menjejaki ratusan sasaran dengan kualiti tinggi dalam senario kompleks dengan hanya satu kad.
Alamat projek: https://github.com/z-x-yang/Segment-and-Track -Apa-apa sahaja
Alamat kertas: https://arxiv.org/abs/2305.06558
SAM-Track menyokong input bahasa sebagai Prompt. Contohnya, memandangkan teks kategori "Panda", pembahagian peringkat contoh satu klik boleh digunakan untuk menjejak semua sasaran yang tergolong dalam kategori "Panda".
Anda juga boleh memberikan penerangan yang lebih terperinci, seperti memasukkan teks "Panda paling kiri", SAM-Track Anda boleh mencari sasaran khusus untuk penjejakan pembahagian.
Berbanding dengan algoritma penjejakan video tradisional, satu lagi ciri hebat SAM-Track ialah ia boleh menyasarkan sejumlah besar sasaran secara serentak Laksanakan segmentasi penjejakan dan secara automatik mengesan objek yang muncul.
SAM-Track juga menyokong gabungan pelbagai kaedah interaksi dan pengguna boleh memadankannya mengikut keperluan sebenar. Contohnya, gunakan berus untuk membingkai papan selaju yang bersambung rapat dengan badan manusia untuk mengelakkan pembahagian objek berlebihan, dan kemudian gunakan klik untuk memilih badan manusia.
Pengsegmenan dan penjejakan sasaran video automatik sepenuhnya secara semula jadi adalah mudah Pelbagai senario aplikasi termasuk paparan jalanan, fotografi udara, AR, animasi, imej perubatan, dsb., yang kesemuanya boleh dibahagikan. dan dikesan secara automatik dengan satu klik Kesan objek yang muncul.
Jika anda tidak berpuas hati dengan keputusan pembahagian automatik, pengguna boleh membuat pengeditan dan pembetulan atas dasar ini, seperti seperti menggunakan klik untuk membetulkannya.
Pada masa yang sama, versi terkini SAM-Track menyokong penyemakan imbas dalam talian hasil penjejakan dan anda boleh memilih untuk membelah mana-mana bingkai di tengah Akibatnya, ubah suai dan tambah matlamat, dan jejak semula.
Untuk memudahkan pengalaman dalam talian pengguna, projek ini menyediakan WebUI, yang boleh digunakan dengan satu klik melalui Colab:
Model SAM-Track adalah berdasarkan DeAOT, skim kejuaraan bagi empat trek Bengkel ECCV'22 VOT.
DeAOT ialah model VOS berbilang objektif yang cekap Memandangkan anotasi objek bingkai pertama, ia boleh menjejak dan membahagikan objek dalam baki bingkai video.
DeAOT menggunakan mekanisme pengecaman untuk membenamkan berbilang sasaran dalam video ke dalam ruang dimensi tinggi yang sama, dengan itu mencapai penjejakan serentak berbilang objek.
Prestasi kelajuan DeAOT dalam penjejakan berbilang objek adalah setanding dengan kaedah VOS lain untuk penjejakan objek tunggal.
Selain itu, melalui mekanisme perambatan berasaskan Transformer berlapis, DeAOT mengagregatkan maklumat jangka panjang dan jangka pendek dengan lebih baik, menunjukkan prestasi penjejakan yang sangat baik.
Memandangkan DeAOT memerlukan anotasi bingkai rujukan untuk dimulakan, untuk meningkatkan kemudahan, SAM-Track menggunakan model Segment Anything Model (SAM) yang baru-baru ini bersinar dalam bidang pembahagian imej untuk mendapatkan maklumat Label.
Menggunakan keupayaan migrasi sifar sampel yang sangat baik dan kaedah interaksi berbilang SAM, SAM-Track boleh mendapatkan maklumat anotasi bingkai rujukan berkualiti tinggi untuk DeAOT dengan cekap.
Walaupun model SAM berprestasi baik dalam bidang pembahagian imej, ia tidak dapat mengeluarkan label semantik dan pembayang teks tidak dapat menyokong Pembahagian Objek Merujuk dan tugas lain yang bergantung pada pemahaman semantik yang mendalam.
Oleh itu, model SAM-Track menyepadukan lagi Grounding-DINO untuk mencapai pembahagian video berpandukan bahasa berketepatan tinggi. Grounding DINO ialah model pengesanan objek set terbuka dengan keupayaan pemahaman bahasa yang baik.
Berdasarkan kategori input atau penerangan terperinci objek sasaran, Grounding-DINO boleh mengesan sasaran dan mengembalikan kotak lokasi.
Seperti yang ditunjukkan dalam rajah di bawah, model SAM-Track menyokong tiga mod penjejakan objek, iaitu mod penjejakan interaktif, mod penjejakan automatik dan Mod gabungan.
Untuk mod penjejakan interaktif, model SAM-Track terlebih dahulu menggunakan SAM, menggunakan klik atau bingkai dalam bingkai rujukan Pilih sasaran dengan cara ini sehingga hasil segmentasi interaktif yang memuaskan hati pengguna diperolehi.
Jika anda ingin melaksanakan pembahagian objek video berpandukan bahasa, SAM-Track akan memanggil Grounding-DINO terlebih dahulu untuk mendapatkan bingkai kedudukan objek sasaran berdasarkan teks input dan berdasarkan mengenai ini Dapatkan keputusan segmentasi objek yang diminati melalui SAM.
Akhir sekali, DeAOT menggunakan hasil pembahagian interaktif sebagai bingkai rujukan untuk menjejaki sasaran yang dipilih. Semasa proses penjejakan, DeAOT akan menyebarkan secara hierarki pembenaman visual dan pembenaman ID berdimensi tinggi dalam bingkai lalu kepada bingkai semasa untuk mencapai penjejakan bingkai demi bingkai dan pembahagian berbilang objek sasaran. Oleh itu, SAM-Track boleh menjejak objek yang diminati dalam video tersegmen dengan menyokong interaksi berbilang modal.
Walau bagaimanapun, mod penjejakan interaktif tidak dapat mengendalikan objek yang baru muncul yang muncul dalam video. Mengehadkan penggunaan SAM-Track dalam bidang tertentu, seperti pemanduan autonomi, bandar pintar, dsb.
Untuk mengembangkan lagi skop aplikasi dan prestasi SAM-Track, SAM-Track melaksanakan mod penjejakan automatik untuk menjejak objek baharu yang muncul dalam video.
Mod penjejakan automatik menggunakan Segment Everything dan Object of Interest Segmentation untuk mendapatkan anotasi objek baharu yang muncul dalam setiap n bingkai. Untuk masalah penetapan ID objek yang baru muncul, SAM-Track menggunakan modul topeng perbandingan (CMR) untuk menentukan ID objek baharu.
Mod gabungan menggabungkan mod penjejakan interaktif dan mod penjejakan automatik. Mod penjejakan interaktif membolehkan pengguna mendapatkan anotasi dengan mudah untuk bingkai pertama video, manakala mod penjejakan automatik mengendalikan objek baharu yang tidak dipilih yang muncul dalam bingkai video berikutnya. Gabungan kaedah penjejakan mengembangkan skop aplikasi SAM-Track dan meningkatkan kepraktisan SAM-Track.
Atas ialah kandungan terperinci Pembahagian video akhir! Universiti Zhejiang baru-baru ini mengeluarkan SAM-Track: pembahagian video pintar universal dengan satu klik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!