Rumah > Peranti teknologi > AI > teks badan

Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan 'Prompt' terus pada imej

WBOY
Lepaskan: 2023-11-24 08:10:38
ke hadapan
1183 orang telah melayarinya

Selepas popular Grounded SAM, IDEA Research Team🎜🎜 dengan kerja baharu: gesaan visual baharu Visual Prompt) modelT -Re 🎜#x, kenali gambar dengan gambar, sedia untuk digunakan terus dari kotak, # 🎜🎜#Buka dunia baharu ujian episod terbuka! Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imejTarik kotak, semak, lengkapkan! Pada persidangan IDEA 2023 yang baru sahaja tamat, Shen Xiangyang, pengerusi pengasas Institut Penyelidikan IDEA dan ahli akademik asing Akademi Kejuruteraan Kebangsaan, menunjukkan pengalaman pengesanan sasaran baharu berdasarkan isyarat visual dan mengeluarkan makmal model (taman permainan) baharu model isyarat visual T-Rex ), Prompt Visual Interaktif (iVP), mencetuskan gelombang klimaks percubaan di tapak.

Pada iVP, pengguna secara peribadi boleh membuka kunci pengalaman menggesa "gambar bernilai seribu perkataan": tandakan objek yang menarik pada gambar dan berikan model dengan contoh Visual, model kemudian mengesan semua kejadian serupa dalam imej sasaran. Keseluruhan proses adalah interaktif dan boleh diselesaikan dengan mudah hanya dalam beberapa langkah. Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imej

The Grounded SAM (Grounding DINO + SAM) yang dikeluarkan oleh IDEA Research Institute pada bulan April telah menjadi sangat popular di Github dan telah mengumpul 11K bintang setakat ini. Berbeza daripada Grounded SAM, yang hanya menyokong gesaan teks, model T-Rex yang dikeluarkan kali ini menyediakan fungsi gesaan visual yang memfokuskan pada mencipta interaksi yang kuat. Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imej

T-Rex mempunyai ciri luar biasa yang kukuh dan boleh mengesan objek yang model tidak pernah lihat semasa fasa latihan tanpa memerlukan latihan semula atau penalaan halus. Model ini bukan sahaja boleh digunakan pada semua tugas pengesanan termasuk mengira, tetapi juga menyediakan penyelesaian baharu untuk senario anotasi interaktif pintar. Pasukan itu mendedahkan bahawa pembangunan teknologi segera visual diperoleh daripada pemerhatian titik kesakitan dalam adegan sebenar. Sesetengah rakan kongsi berharap untuk menggunakan model visual untuk mengira bilangan barangan pada trak Walau bagaimanapun, model itu tidak boleh mengenal pasti setiap barangan secara individu melalui gesaan teks sahaja. Sebabnya, objek dalam adegan industri jarang berlaku dalam kehidupan seharian dan sukar untuk digambarkan dengan kata-kata. Dalam kes ini, isyarat visual jelas merupakan pendekatan yang lebih cekap. Pada masa yang sama, maklum balas visual intuitif dan interaktiviti yang kuat juga membantu meningkatkan kecekapan dan ketepatan pengesanan.

Berdasarkan cerapan tentang keperluan penggunaan sebenar, pasukan mereka bentuk T-Rex sebagai model yang boleh menerima pelbagai isyarat visual dan mempunyai keupayaan untuk menggesa merentas imej. Sebagai tambahan kepada mod gesaan satu pusingan yang paling asas, model semasa juga menyokong tiga mod lanjutan berikut. mod positif: Sesuai untuk senario di mana isyarat visual tidak cukup tepat dan mengakibatkan pengesanan terlepas

Mod Contoh Positif + Negatif: Sesuai untuk senario di mana isyarat visual adalah samar-samar dan menghasilkan pengesanan palsu

# 🎜🎜#Mod Gambar silang: Sesuai untuk mengesan imej lain melalui gesaan imej rujukan tunggal Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imej

Dalam laporan teknikal yang dikeluarkan pada masa yang sama, pasukan meringkaskan empat ciri utama Model T-Rex: #🎜 🎜#

Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imejSet terbuka: tidak dihadkan oleh kategori yang telah ditetapkan, dengan keupayaan untuk mengesan semua objek#🎜🎜 🎜🎜#Petua Visual: Gunakan contoh Visual menentukan sasaran pengesanan, mengatasi masalah objek yang jarang ditemui dan kompleks sukar untuk dinyatakan sepenuhnya dalam perkataan, dan meningkatkan kecekapan segera

    Maklum balas visual intuitif: Berikan maklum balas visual intuitif seperti sebagai kotak sempadan untuk membantu pengguna menilai hasil pengesanan dengan cekap# 🎜🎜#
  • Interaktiviti: Pengguna boleh dengan mudah mengambil bahagian dalam proses pengesanan dan membetulkan keputusan model
  • Pasukan penyelidik menunjukkan bahawa dalam senario pengesanan sasaran, penambahan isyarat visual boleh menggantikan Beberapa pepijat dalam gesaan teks. Pada masa hadapan, gabungan kedua-duanya akan menyerlahkan lagi potensi teknologi CV dalam bidang yang lebih menegak.
  • Untuk butiran teknikal model T-Rex, sila rujuk laporan teknikal yang dikeluarkan pada masa yang sama.

Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan Prompt terus pada imej

    iVP
  • Model Lab: ##🎜🎜🎜 //deepdataspace.com/playground/ivp
  • Pautan Github: trex-counting.github.io

    Karya ini datang dari Pusat Penyelidikan Visi Komputer dan Robotik Institut IDEA. Model pengesanan sasaran sumber terbuka DINO sebelum ini ialah model DETR pertama yang mencapai tempat pertama dalam kedudukan pengesanan sasaran COCO pengesan sifar pukulan Grounding DINO pada Github dan DINO juga boleh mengesan dan membahagikan sebarang objek hasil kerja pasukan ini

Atas ialah kandungan terperinci Teknologi baharu dilancarkan, Institut Penyelidikan IDEA mengeluarkan model T-Rex, membenarkan pengguna memilih gesaan 'Prompt' terus pada imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan