Selepas popular Grounded SAM, IDEA Research Team🎜🎜 dengan kerja baharu: gesaan visual baharu (Visual Prompt) modelT -Re 🎜#x, kenali gambar dengan gambar, sedia untuk digunakan terus dari kotak,
Tarik kotak, semak, lengkapkan! Pada persidangan IDEA 2023 yang baru sahaja tamat, Shen Xiangyang, pengerusi pengasas Institut Penyelidikan IDEA dan ahli akademik asing Akademi Kejuruteraan Kebangsaan, menunjukkan pengalaman pengesanan sasaran baharu berdasarkan isyarat visual dan mengeluarkan makmal model (taman permainan) baharu model isyarat visual T-Rex ), Prompt Visual Interaktif (iVP), mencetuskan gelombang klimaks percubaan di tapak.Pada iVP, pengguna secara peribadi boleh membuka kunci pengalaman menggesa "gambar bernilai seribu perkataan": tandakan objek yang menarik pada gambar dan berikan model dengan contoh Visual, model kemudian mengesan semua kejadian serupa dalam imej sasaran. Keseluruhan proses adalah interaktif dan boleh diselesaikan dengan mudah hanya dalam beberapa langkah.
The Grounded SAM (Grounding DINO + SAM) yang dikeluarkan oleh IDEA Research Institute pada bulan April telah menjadi sangat popular di Github dan telah mengumpul 11K bintang setakat ini. Berbeza daripada Grounded SAM, yang hanya menyokong gesaan teks, model T-Rex yang dikeluarkan kali ini menyediakan fungsi gesaan visual yang memfokuskan pada mencipta interaksi yang kuat.
T-Rex mempunyai ciri luar biasa yang kukuh dan boleh mengesan objek yang model tidak pernah lihat semasa fasa latihan tanpa memerlukan latihan semula atau penalaan halus. Model ini bukan sahaja boleh digunakan pada semua tugas pengesanan termasuk mengira, tetapi juga menyediakan penyelesaian baharu untuk senario anotasi interaktif pintar. Pasukan itu mendedahkan bahawa pembangunan teknologi segera visual diperoleh daripada pemerhatian titik kesakitan dalam adegan sebenar. Sesetengah rakan kongsi berharap untuk menggunakan model visual untuk mengira bilangan barangan pada trak Walau bagaimanapun, model itu tidak boleh mengenal pasti setiap barangan secara individu melalui gesaan teks sahaja. Sebabnya, objek dalam adegan industri jarang berlaku dalam kehidupan seharian dan sukar untuk digambarkan dengan kata-kata. Dalam kes ini, isyarat visual jelas merupakan pendekatan yang lebih cekap. Pada masa yang sama, maklum balas visual intuitif dan interaktiviti yang kuat juga membantu meningkatkan kecekapan dan ketepatan pengesanan. Berdasarkan cerapan tentang keperluan penggunaan sebenar, pasukan mereka bentuk T-Rex sebagai model yang boleh menerima pelbagai isyarat visual dan mempunyai keupayaan untuk menggesa merentas imej. Sebagai tambahan kepada mod gesaan satu pusingan yang paling asas, model semasa juga menyokong tiga mod lanjutan berikut. mod positif: Sesuai untuk senario di mana isyarat visual tidak cukup tepat dan mengakibatkan pengesanan terlepasMod Contoh Positif + Negatif: Sesuai untuk senario di mana isyarat visual adalah samar-samar dan menghasilkan pengesanan palsu# 🎜🎜#Mod Gambar silang: Sesuai untuk mengesan imej lain melalui gesaan imej rujukan tunggal
Dalam laporan teknikal yang dikeluarkan pada masa yang sama, pasukan meringkaskan empat ciri utama Model T-Rex: #🎜 🎜#
Set terbuka: tidak dihadkan oleh kategori yang telah ditetapkan, dengan keupayaan untuk mengesan semua objek#🎜🎜 🎜🎜#Petua Visual: Gunakan contoh Visual menentukan sasaran pengesanan, mengatasi masalah objek yang jarang ditemui dan kompleks sukar untuk dinyatakan sepenuhnya dalam perkataan, dan meningkatkan kecekapan segera
Pautan Github: trex-counting.github.io
Karya ini datang dari Pusat Penyelidikan Visi Komputer dan Robotik Institut IDEA. Model pengesanan sasaran sumber terbuka DINO sebelum ini ialah model DETR pertama yang mencapai tempat pertama dalam kedudukan pengesanan sasaran COCO pengesan sifar pukulan Grounding DINO pada Github dan DINO juga boleh mengesan dan membahagikan sebarang objek hasil kerja pasukan ini
Atas ialah kandungan terperinci Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan 'Prompt' terus pada imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!