CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu-AI-php.cn

Rumah

CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2024 pm 06:10 PM

projek pembahagian rujukan

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Merujuk Segmentasi Imej (RIS) ialah tugas pelbagai mod yang sangat mencabar, yang memerlukan algoritma untuk dapat memahami bahasa manusia halus dan maklumat imej visual pada masa yang sama, dan untuk mengklasifikasikan ayat dalam imej objek yang dirujuk dibahagikan pada tahap piksel. Kejayaan dalam teknologi RIS dijangka membawa perubahan revolusioner dalam banyak bidang seperti interaksi manusia-komputer, penyuntingan imej dan pemanduan autonomi. Ia boleh meningkatkan kecekapan dan pengalaman kerjasama manusia-mesin. Walaupun algoritma RIS terkini yang terkini telah mencapai kemajuan yang ketara, ia masih menghadapi masalah jurang modaliti, iaitu pengedaran ciri imej dan teks tidak sejajar sepenuhnya. Masalah ini amat meruncing apabila berurusan dengan ungkapan bahasa rujukan yang kompleks dan konteks yang jarang berlaku.

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Rajah 1: Gambar rajah skema tentang kepentingan keupayaan penjajaran imej bahasa yang terperinci kepada RIS. Topeng merah ialah hasil ramalan LAVT, salah satu algoritma RIS yang paling maju pada masa ini, manakala kotak bertitik kuning ialah anotasi yang betul.}

Penyelidikan RIS semasa tertumpu terutamanya pada mereka bentuk fungsi kehilangan novel atau memperkenalkan seni bina/modul rangkaian yang inovatif untuk meningkatkan penjajaran pengedaran imej bahasa. Walaupun terdapat kemajuan yang ketara, masih terdapat dua isu asas yang membawa kepada ketidakcukupan mereka dalam asas visual yang terperinci:

1 Kaedah ini bergantung terutamanya pada tahap ayat Ciri bahasa melakukan penjajaran imej-bahasa, mengakibatkan kelemahannya keupayaan penjajaran imej-bahasa pada peringkat teks.

2 Kaedah ini sering kekurangan isyarat penyeliaan yang jelas semasa proses latihan dan tidak dapat mengajar model dengan berkesan untuk melakukan penjajaran halus, mengakibatkan prestasinya yang lemah dalam memproses bahasa rujukan yang kompleks.法 Rajah 2: Kelemahan algoritma yang sedia ada

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Dalam kerja CVPR 2024 baru-baru ini, pasukan penyelidik bersama dari Jabatan Automasi Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mereka bentuk baru The Auxiliary Task Mask Grounding . Tugas ini bertujuan untuk mengajar model secara eksplisit untuk mempelajari korespondensi terperinci antara teks dan objek visual dengan menutup bahagian perkataan teks secara rawak dan membiarkan algoritma belajar untuk meramalkan identiti sebenar mereka. Di samping itu, mereka juga mencadangkan Modul Penjajaran rentas mod baru dan fungsi kehilangan penjajaran rentas mod (Kehilangan Penjajaran Cross-modal) untuk mengurangkan lagi jurang mod antara bahasa dan imej secara menyeluruh. Berdasarkan teknologi ini, mereka mereka bentuk seni bina rangkaian pembahagian contoh baharu Rangkaian Berasaskan Topeng (MagNet).}

Tajuk kertas: Mask Grounding untuk Merujuk Pembahagian Imej

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Alamat kertas: https://arxiv.org/abs/2312.12198

COCO + dan G-Ref On set data, MagNet dengan ketara mengatasi semua algoritma optimum sebelumnya, meningkatkan dengan ketara penunjuk teras nisbah persilangan-lebih-kesatuan (oIoU) dengan ketara sebanyak 2.48 mata peratusan. Hasil visualisasi juga mengesahkan bahawa MagNet mempunyai prestasi cemerlang dalam memproses adegan kompleks dan ungkapan bahasa.

MagNet terdiri daripada 3 modul bebas dan pelengkap, iaitu Mask Grounding, Cross-Modal Alignment Module dan Cross-Modal Alignment Module

1.Pembukaan Topeng

^… Seperti yang ditunjukkan dalam Rajah 3, memandangkan imej input, ungkapan rujukan yang sepadan dan topeng segmentasi, pengarang secara rawak memilih beberapa perbendaharaan kata ayat dan menggantikannya dengan token topeng khas yang boleh dipelajari. Model tersebut kemudiannya dilatih untuk meramalkan identiti sebenar perkataan yang diganti ini. Dengan berjaya meramalkan identiti token bertopeng, model ini dapat memahami perkataan dalam teks yang sepadan dengan bahagian imej yang mana, mempelajari keupayaan penjajaran imej-bahasa yang halus dalam proses itu. Untuk melaksanakan tugas tambahan ini, koordinat tengah kawasan topeng mula-mula diekstrak dan dihantar ke MLP 2 lapisan untuk mengekodkan ciri topeng segmentasi. Pada masa yang sama, lapisan linear digunakan untuk memetakan ciri bahasa kepada dimensi yang sama dengan ciri imej. Kemudian, ciri ini diproses bersama menggunakan peramal token topeng yang dicadangkan, dan modul mekanisme perhatian digunakan untuk ramalan token topeng. Walaupun Mask Grounding memerlukan laluan hadapan tambahan melalui pengekod bahasa untuk memproses ungkapan bertopeng, kos pengiraan keseluruhan hampir boleh diabaikan kerana pengekod bahasa adalah sangat kecil. Cross-modal Alignment Module (CAM)

Seperti yang ditunjukkan dalam Rajah 4, untuk meningkatkan lagi prestasi Model, penulis juga mencadangkan modul penjajaran silang mod (CAM) untuk meningkatkan kesan penjajaran imej bahasa dengan menyuntik konteks global sebelum ke dalam ciri imej sebelum melakukan gabungan imej bahasa. CAM mula-mula menjana peta ciri K bagi skala piramid yang berbeza menggunakan operasi pengumpulan dengan saiz tetingkap yang berbeza. Kemudian, setiap peta ciri dilalui melalui MLP 3 lapisan untuk mengekstrak maklumat global dengan lebih baik dan melakukan operasi merentas perhatian dengan modaliti lain. Seterusnya, semua ciri output ditambah sampel kepada saiz peta ciri asal dengan interpolasi dwilinear dan digabungkan dalam dimensi saluran. Selepas itu, MLP 2 lapisan digunakan untuk mengurangkan bilangan saluran ciri bercantum kembali kepada dimensi asal. Untuk mengelakkan isyarat multimodal daripada mengatasi isyarat asal, unit berpagar dengan ketaklinearan Tanh digunakan untuk memodulasi keluaran akhir. Akhir sekali, ciri berpagar ini ditambah semula pada ciri input dan dihantar ke peringkat seterusnya bagi pengekod imej atau bahasa. Dalam pelaksanaan pengarang, CAM ditambah pada akhir setiap peringkat pengekod imej dan bahasa.

3.Cross-modal Alignment Loss (CAL)

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

formula

Untuk menyelia model agar menyelaraskan ciri bahasa dan imej, pengarang A fungsi kehilangan penjajaran rentas modal baru (CAL) dicadangkan. Rajah 5 menunjukkan formula matematik bagi fungsi kehilangan ini. Tidak seperti kerja sebelumnya, CAL mempertimbangkan kedua-dua penjajaran piksel-ke-Pixel (P2P) dan piksel-ke-teks (P2T). Penjajaran piksel ke piksel yang tepat memastikan model boleh membahagikan dan mengeluarkan topeng segmentasi dengan bentuk dan sempadan yang tepat, manakala penjajaran piksel ke teks yang tepat membolehkan model mengaitkan perihalan teks dengan betul dengan kawasan imej yang dipadankan.

Eksperimen

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{Dalam Jadual 1, pengarang menggunakan metrik oIoU untuk menilai MagNet dan membandingkan prestasinya dengan algoritma terkini yang sedia ada. Data ujian ialah RefCOCO, RefCOCO + dan G-Ref. Dalam kedua-dua tetapan set data tunggal dan berbilang/tambahan, prestasi MagNet adalah SOTA pada set data ini.}

Jadual 1: Hasil eksperimen 视 Hasil visualisasi

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

Rajah 6: Hasil visualisasi magnet

Dalam Rajah 6, kita dapat melihat bahawa visualisasi magnet hasilnya juga luar biasa , mengatasi prestasi LAVT asas dalam banyak senario yang sukar.

Ringkasan

Artikel ini mengupas cabaran dan isu semasa dalam bidang segmentasi rujukan (RIS), terutamanya kelemahan dalam penjajaran imej bahasa yang halus. Sebagai tindak balas kepada masalah ini, penyelidik dari Universiti Tsinghua dan Institut Penyelidikan Pusat Bosch mencadangkan kaedah baharu yang dipanggil MagNet, yang mempertingkatkan bahasa secara menyeluruh dengan memperkenalkan Mask Grounding tugas tambahan, modul penjajaran silang modal dan fungsi kehilangan penjajaran silang modal kesan penjajaran antara imej. Eksperimen membuktikan bahawa MagNet mencapai prestasi yang jauh lebih baik pada set data RefCOCO, RefCOCO+ dan G-Ref, mengatasi algoritma terkini yang terkini dan menunjukkan keupayaan generalisasi yang kukuh. Hasil visualisasi juga mengesahkan keunggulan MagNet dalam memproses adegan kompleks dan ungkapan bahasa. Penyelidikan ini memberikan inspirasi yang berguna untuk pembangunan selanjutnya dalam bidang pembahagian rujukan dan dijangka akan menggalakkan kejayaan yang lebih besar dalam bidang ini.

Pengenalan pasukan

Kertas kerja ini datang dari Jabatan Automasi Universiti Tsinghua (https://www.au.tsinghua.edu.cn) dan Institut Penyelidikan Pusat Bosch (https:// www.bosch .com/research/). Salah seorang pengarang pertama kertas kerja itu, Zhuang Rongxian, ialah pelajar kedoktoran di Universiti Tsinghua dan merupakan seorang pelatih di Bosch Academia Sinica, ketua projek ialah Dr. Qiu Xuchong, seorang saintis R&D kanan di Bosch Academia Sinica; Profesor Huang Gao dari Jabatan Automasi, Universiti Tsinghua.

Atas ialah kandungan terperinci CVPR 2024 |. Pandai memproses adegan kompleks dan ekspresi bahasa, Tsinghua & Bosch mencadangkan seni bina rangkaian pembahagian contoh baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7345

Tutorial Java

1627

Tutorial CakePHP

1352

Tutorial Laravel

1265

Tutorial PHP

1214

Tunjukkan Lagi

Related knowledge

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Penjanaan video tanpa had, perancangan dan membuat keputusan, penyebaran paksa penyepaduan ramalan token seterusnya dan penyebaran jujukan penuh Jul 23, 2024 pm 02:05 PM

Pada masa ini, model bahasa berskala besar autoregresif menggunakan paradigma ramalan token seterusnya telah menjadi popular di seluruh dunia Pada masa yang sama, sejumlah besar imej dan video sintetik di Internet telah menunjukkan kepada kami kuasa model penyebaran. Baru-baru ini, pasukan penyelidik di MITCSAIL (salah seorang daripadanya ialah Chen Boyuan, pelajar PhD di MIT) berjaya menyepadukan keupayaan berkuasa model resapan jujukan penuh dan model token seterusnya, dan mencadangkan paradigma latihan dan pensampelan: Diffusion Forcing (DF). ). Tajuk kertas: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Alamat kertas: https:/

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles