


CVPR 2024 |. Rangka kerja anggaran pose objek 6D sifar SAM-6D, selangkah lebih dekat dengan kecerdasan yang terkandung
Anggaran pose objek memainkan peranan penting dalam banyak aplikasi praktikal, seperti dalam bidang seperti kecerdasan yang terkandung, operasi robot dan realiti tambahan.
Dalam medan ini, tugas yang mula-mula menarik perhatian ialah Anggaran pose 6D peringkat contoh, yang memerlukan data beranotasi tentang objek sasaran untuk latihan model, menjadikan objek model dalam khusus dan tidak dapat dipindahkan ke objek baharu. atasan. Kemudian, tumpuan penyelidikan bertukar secara beransur-ansur kepada anggaran pose 6D peringkat kategori, yang digunakan untuk memproses objek ghaib, tetapi memerlukan objek itu tergolong dalam kategori minat yang diketahui.
Dan Anggaran pose 6D tangkapan sifar ialah tetapan tugas yang lebih umum, diberikan model CAD bagi mana-mana objek, bertujuan untuk mengesan objek sasaran dalam adegan dan menganggarkan pose 6Dnya. Walaupun kepentingannya, tetapan tugasan sifar ini menghadapi cabaran yang ketara dalam kedua-dua pengesanan objek dan anggaran pose.
tugas anggaran
Baru-baru ini, pembahagian semua model SAM [1] telah menarik perhatian ramai, dan keupayaan pembahagian sampel sifar yang sangat baik adalah menarik perhatian. SAM mencapai pembahagian ketepatan tinggi melalui pelbagai isyarat, seperti piksel, kotak sempadan, teks dan topeng, dsb., yang turut menyediakan sokongan yang boleh dipercayai untuk tugas anggaran pose objek 6D sampel sifar, yang menunjukkan potensinya yang menjanjikan.
Oleh itu, rangka kerja anggaran pose objek 6D sifar sampel baharu SAM-6D telah dicadangkan oleh penyelidik dari Kepintaran Merentas Dimensi, Universiti China Hong Kong (Shenzhen) dan Universiti Teknologi China Selatan. Penyelidikan ini telah diiktiraf oleh CVPR 2024.
Pautan kertas: https://arxiv.org/pdf/2311.15707.pdf
Pautan kod: https://github.com/JiehongLin/SAM-6D
Anggaran pose objek 6D sampel sifar dicapai melalui dua langkah, termasuk pembahagian contoh dan anggaran pose. Sejajar dengan itu, memandangkan objek sasaran sewenang-wenangnya, SAM-6D menggunakan dua sub-rangkaian khusus, iaitu
, untuk mencapai sasaran daripada imej pemandangan RGB-D, di mana, Pengambilan ISM SAM sebagai titik permulaan yang sangat baik, digabungkan dengan skor pemadanan objek yang direka dengan teliti untuk mencapai pembahagian contoh objek arbitrari, PEM menyelesaikan masalah pose objek melalui proses pemadanan set titik dua peringkat tempatan ke tempatan. Gambaran keseluruhan SAM-6D ditunjukkan dalam Rajah 2.
... rangka kerja , dengan diberikan model CAD bagi sebarang objek, ia mencapai pembahagian contoh dan menganggarkan objek sasaran daripada imej RGB-D, dan berprestasi cemerlang pada tujuh set data teras BOP [2]. SAM-6D memanfaatkan keupayaan pembahagian pukulan sifar model Semua Segmen untuk menjana semua calon yang mungkin dan mereka bentuk skor pemadanan objek baharu untuk mengenal pasti calon yang sepadan dengan objek sasaran.
- SAM-6D menganggap anggaran pose sebagai masalah padanan set titik setempat-ke-tempatan, menggunakan reka bentuk Token Latar Belakang yang mudah tetapi berkesan, dan mencadangkan model padanan set titik dua peringkat untuk objek sewenang-wenangnya Peringkat pertama melaksanakan padanan set titik kasar untuk mendapatkan pose objek awal, dan peringkat kedua menggunakan transformer set titik jarang ke padat novel untuk melakukan padanan set titik halus untuk mengoptimumkan lagi pose.
- Model Segmentasi Instance (ISM) SAM-6D menggunakan Model Segmentasi Instance (ISM) untuk mengesan dan membahagikan topeng objek arbitrari.
Memandangkan pemandangan berantakan yang diwakili oleh imej RGB, ISM memanfaatkan keupayaan pemindahan tangkapan sifar Model Semua Segmentasi (SAM) untuk menjana semua calon yang mungkin. Bagi setiap objek calon, ISM mengira skor padanan objek untuk menganggar sejauh mana ia sepadan dengan objek sasaran dari segi semantik, rupa dan geometri. Akhir sekali, dengan hanya menetapkan ambang yang sepadan, contoh yang sepadan dengan objek sasaran boleh dikenal pasti.
Skor padanan objek dikira dengan jumlah wajaran tiga istilah padanan:
Istilah padanan semantik - Untuk objek sasaran, ISM memaparkan templat objek daripada pelbagai perspektif dan menggunakan DINOv2 [3] untuk pra-latihan Model ViT mengekstrak ciri semantik objek calon dan templat objek, dan mengira skor korelasi antara mereka. Skor padanan semantik diperoleh dengan purata skor tertinggi K teratas, dan templat objek yang sepadan dengan skor korelasi tertinggi dianggap sebagai templat padanan terbaik.
Padanan rupa - Untuk templat padanan terbaik, model ViT digunakan untuk mengekstrak ciri blok imej dan mengira perkaitan antaranya dan ciri blok objek calon untuk mendapatkan skor padanan penampilan, yang digunakan untuk membezakan persamaan semantik tetapi item yang sepadan dengan penampilan.
Padanan Geometri - Mengambil kira faktor seperti perbezaan bentuk dan saiz objek yang berbeza, ISM turut mereka bentuk skor padanan geometri. Purata putaran yang sepadan dengan templat padanan terbaik dan awan titik objek calon boleh memberikan pose objek kasar, dan kotak sempadan boleh diperolehi dengan mengubah dan menayang model CAD objek menggunakan pose ini secara tegar. Mengira nisbah intersection-over-union (IoU) antara kotak sempadan dan kotak sempadan calon boleh memperoleh skor padanan geometri.
Model Anggaran Pose (PEM)
Untuk setiap objek calon yang sepadan dengan objek sasaran, SAM-6D menggunakan Model Anggaran Pose (PEM) untuk meramalkan pose 6Dnya berbanding model CAD objek. . C mewakili Bilangan saluran ciri. Matlamat PEM adalah untuk mendapatkan matriks tugasan yang mewakili surat-menyurat setempat-ke-tempatan daripada P_m ke P_o disebabkan oleh oklusi, P_o hanya padanan sebahagiannya P_m dan disebabkan oleh ketidaktepatan segmentasi dan hingar penderia, P_m hanya padanan separa DAN padanan. P_o.
Untuk menyelesaikan masalah menetapkan titik tidak bertindih dalam dua set titik, ISM melengkapkannya dengan Token Latar Belakang, yang dilambangkan sebagai dan
, yang boleh mewujudkan surat-menyurat tempatan-ke-tempatan secara berkesan berdasarkan persamaan ciri. Secara khusus, matriks perhatian boleh dikira terlebih dahulu seperti berikut:
Kemudian matriks taburan
dan
mewakili operasi softmax di sepanjang baris dan lajur masing-masing mewakili pemalar, dan. Nilai setiap baris dalam (kecuali baris pertama) mewakili kebarangkalian padanan setiap titik P_m dalam set titik P_m dengan latar belakang dan titik tengah P_o Dengan mencari indeks skor maksimum, titik sepadan dengan P_m (termasuk latar belakang) boleh didapati ).
Setelah dikira, semua pasangan mata padanan {(P_m,P_o)} dan markah padanan mereka boleh dikumpulkan, dan akhirnya SVD berwajaran digunakan untuk mengira pose objek.
Menggunakan strategi di atas berdasarkan Token Latar Belakang, dua peringkat padanan set titik direka bentuk dalam PEM Struktur model ditunjukkan dalam Rajah 3, yang merangkumi pengekstrakan ciri, padanan set titik kasar dan padanan set titik halustiga modul.
Modul padanan set titik kasar melaksanakan surat-menyurat jarang untuk mengira pose objek awal, dan kemudian menggunakan pose ini untuk mengubah set titik objek calon untuk mencapai pembelajaran pengekodan kedudukan.
Modul padanan set titik halus menggabungkan pengekodan kedudukan set titik pensampelan objek calon dan objek sasaran, dengan itu menyuntik surat-menyurat kasar pada peringkat pertama dan seterusnya mewujudkan surat-menyurat padat untuk mendapatkan pose objek yang lebih tepat. Untuk mempelajari interaksi padat secara berkesan pada peringkat ini, PEM memperkenalkan pengubah set titik jarang ke padat novel, yang melaksanakan interaksi pada versi jarang ciri padat, dan menggunakan Pengubah Linear [5] untuk mengubah ciri jarang dipertingkatkan kepada Diffusion back. menjadi ciri padat.
Hasil eksperimen
Untuk dua sub-model SAM-6D, model segmentasi instance (ISM) dibina berdasarkan SAM tanpa memerlukan latihan semula rangkaian dan finetune, manakala model anggaran pose (PEM) menggunakan MegaPose [4] menyediakan set data sintetik ShapeNet-Objects dan Google-Scanned-Objects untuk latihan.
Untuk mengesahkan keupayaan sampel sifarnya, SAM-6D telah diuji pada tujuh set data teras BOP [2], termasuk LM-O, T-LESS, TUD-L, IC-BIN, ITODD, HB dan YCB-V . Jadual 1 dan 2 menunjukkan perbandingan pembahagian contoh dan keputusan anggaran pose kaedah berbeza pada tujuh set data ini, masing-masing. Berbanding dengan kaedah lain, SAM-6D berprestasi sangat baik pada kedua-dua kaedah, menunjukkan sepenuhnya keupayaan generalisasi yang kuat. B Jadual 1. Contoh hasil segmentasi kaedah berbeza pada tujuh set data teras BOP
Jadual 2. Kaedah berbeza mengenai sikap kaedah berbeza pada tujuh set data teras BOP Perbandingan keputusan
Untuk butiran pelaksanaan lanjut SAM-6D, dialu-alukan untuk membaca kertas asal.
Rujukan:[1] Alexander Kirillov et
[2] Martin Sundermeyer et., "Bop challenge 2022 tentang pengesanan, pembahagian dan anggaran pose objek tegar tertentu." Ciri visual yang teguh tanpa pengawasan."[4] Yann Labbe et. al., "Megapose: Anggaran pose 6d objek novel melalui render & compare."
Katharopoulos Angelolos[5] . . al., "Transformer ialah rnns: Autoregresif pantas
transformer dengan perhatian linear."
Atas ialah kandungan terperinci CVPR 2024 |. Rangka kerja anggaran pose objek 6D sifar SAM-6D, selangkah lebih dekat dengan kecerdasan yang terkandung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/
