Bidang pengesanan sasaran telah membawa kemajuan baharu -
Grounding DINO 1.5, dihasilkan oleh pasukan Institut Penyelidikan IDEA, boleh mencapai pengiktirafan masa nyata pada bahagian peranti.
Kemajuan ini telah dimajukan oleh taikun AI Shun Xiangyang, yang biasanya mengikut rentak satu tahun.
Keluaran ini terutamanya mempunyai dua versi: Pro dan Edge. Versi Pro lebih kuat dan versi Edge lebih pantas. . yang sangat meningkatkan ketepatan dan kelajuan pengesanan, dan dioptimumkan untuk senario aplikasi yang berbeza melalui versi Pro dan Edge.
Dalam pembinaan set data berskala besar dan senario permintaan ketepatan tinggi, versi Pro berprestasi cemerlang, manakala versi Edge menunjukkan kelebihan uniknya dalam penggunaan bahagian hujung.
Mari kita lihat secara berasingan.
Versi Pro SOTA baharu untuk pengesanan sasaran
Grounding+DINO+1.5 Versi Pro mencapai tahap SOTA semasa pengesanan sasaran set terbuka, berprestasi baik dalam pemahaman semantik imej dan teks, serta boleh mengesan dan mengenal pasti imej dengan cepat dan tepat berdasarkan bahasa menggesa objek sasaran dalam .
△Perbandingan prestasi migrasi sifar dalam penanda aras COCO, LVIS, ODinW35 dan ODinW13Pemahaman peringkat objek ialah asas persepsi untuk interaksi antara mesin dan dunia fizikal, dan ia juga merupakan penyelesaian kepada pelbagai -masalah ilusi model besar (VLM) Isu asas yang tidak boleh dipintas.
Sebagai model pengesanan set terbuka berprestasi terbaik semasa, Grounding DINO 1.5 Pro boleh membantu membina data berbilang modal besar dengan maklumat semantik peringkat objek, dengan itu membantu latihan model besar berbilang modal secara berkesan.
Ia boleh memadankan frasa dengan tepat dalam huraian teks panjang dengan objek atau pemandangan tertentu dalam imej untuk meningkatkan pemahaman AI tentang hubungan antara kandungan visual dan teks
Selain itu, dalam aplikasi lain yang perlu memproses sejumlah besar data kompleks Dalam bidang seperti e-dagang, media sosial dan pemanduan autonomi, Grounding DINO 1.5 Pro juga mempunyai nilai aplikasi yang kukuh.Sebagai contoh, dalam bidang e-dagang, model ini boleh membantu menganotasi imej produk dengan cepat dan mengoptimumkan sistem carian dan pengesyoran. Dalam media sosial, model ini secara automatik boleh melabelkan imej yang dimuat naik oleh pengguna, meningkatkan kecekapan semakan dan klasifikasi kandungan.
Menyokong penalaan halus data industri
Selain itu, versi Pro juga menyokong penalaan halus melalui data industri untuk memenuhi keperluan khusus pelbagai industri, dengan itu mencapai hasil pengecaman yang lebih tepat.
Dan ia juga sangat sesuai untuk banyak adegan praktikal.
Seperti dalam bidang perubatan, Grounding DINO 1.5 Pro yang diperhalusi boleh mengenal pasti lesi dalam imej perubatan dengan lebih tepat, membantu doktor dalam diagnosis dan meningkatkan kecekapan diagnosis dan rawatan.Dalam industri runcit, model yang diperhalusi boleh mengenal pasti dan mengklasifikasikan barangan dengan lebih tepat, membantu pengurusan inventori dan analisis jualan.
Versi Edge boleh digunakan pada bahagian pelanggan
Dari segi penggunaan sisi pelanggan, Grounding DINO 1.5 Edge versi telah berjaya digunakan pada kad NVIDIA Orin NX melalui pengoptimuman struktur model, dan mencapai kelajuan inferens sebanyak 10FPS.
Selain itu, ia membolehkan robot berinteraksi dengan persekitaran terbuka.Dalam bidang pemanduan autonomi, Grounding DINO 1.5 Edge boleh berjalan dalam masa nyata pada kenderaan pada masa hadapan untuk mencapai pengesanan sasaran yang cekap dan persepsi persekitaran, meningkatkan keselamatan pemanduan. Dalam keselamatan pintar, model ini boleh memproses data pengawasan video dengan cepat, mengesan tingkah laku yang tidak normal dalam masa nyata dan meningkatkan kelajuan tindak balas pemantauan keselamatan.
Pada masa hadapan, kelajuan larian Grounding DINO 1.5 Edge dijangka meningkat kepada 20 hingga 30FPS, seterusnya mengembangkan skop aplikasinya dalam bidang pengkomputeran tepi.
Pautan kertas:
https://arxiv.org/abs/2405.10300
Pautan percubaan projek:
https://deepdataspace.com/playground/grounding_dino
Atas ialah kandungan terperinci SOTA baharu untuk pengesanan sasaran, pengecaman masa nyata pada peranti dan sisi, Shen Xiangyang jarang memajukan dan menyukai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!