Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Gabungan pelbagai mod ialah salah satu tugas asas dalam kecerdasan pelbagai mod. Motivasi gabungan pelbagai mod adalah untuk bersama-sama menggunakan maklumat berkesan daripada modaliti yang berbeza untuk meningkatkan ketepatan dan kestabilan tugas hiliran. Kaedah gabungan berbilang modal tradisional sering bergantung pada data berkualiti tinggi dan sukar untuk menyesuaikan diri dengan data berbilang modal yang kompleks dan berkualiti rendah dalam aplikasi sebenar. Semakan gabungan data multimodal berkualiti rendah "Multimodal Fusion on Low-quality" dikeluarkan bersama oleh Universiti Tianjin, Universiti Renmin China, Agensi Sains, Teknologi dan Penyelidikan Singapura, Universiti Sichuan, Universiti Xi'an Sains dan Teknologi Elektronik dan Data Institut Teknologi Harbin (Shenzhen): Satu Tinjauan Komprehensif" memperkenalkan cabaran gabungan data berbilang modal daripada perspektif bersatu, dan menyusun kaedah gabungan sedia ada bagi data berbilang mod berkualiti rendah dan potensi pembangunan arah dalam bidang ini. http://arxiv.org/abs/2404.18947pautan senarai yang mengagumkan: https://github.com/Qingingoodal-quality-arxiv. Model gabungan pelbagai mod tradisionalManusia melihat dunia dengan menggabungkan maklumat daripada pelbagai modaliti.
Walaupun isyarat beberapa modaliti tidak boleh dipercayai, manusia mempunyai keupayaan untuk memproses isyarat data pelbagai mod berkualiti rendah ini dan melihat persekitaran.
Walaupun pembelajaran multimodal telah mencapai kemajuan yang besar, model pembelajaran mesin multimodal masih kekurangan keupayaan untuk menggabungkan data multimodal berkualiti rendah dengan berkesan dalam dunia nyata. Dalam pengalaman praktikal, prestasi model gabungan berbilang modal tradisional akan merosot dengan ketara dalam senario berikut:
(1)
Data pelbagai mod bising: Beberapa ciri sesetengah modaliti terganggu oleh bunyi bising dan kehilangan maklumat asal . Dalam dunia nyata, faktor persekitaran yang tidak diketahui, kegagalan sensor dan kehilangan isyarat semasa penghantaran boleh menyebabkan gangguan hingar, sekali gus merosakkan kebolehpercayaan model gabungan pelbagai mod. (2)
Tiada data berbilang modal: Disebabkan pelbagai faktor praktikal, beberapa modaliti sampel data berbilang modal yang dikumpul mungkin hilang. Sebagai contoh, dalam bidang perubatan, data multimodal yang terdiri daripada pelbagai keputusan pemeriksaan fisiologi pesakit mungkin hilang dengan serius, dan sesetengah pesakit mungkin tidak pernah menjalani pemeriksaan tertentu. (3)
Data pelbagai modal yang tidak seimbang: Disebabkan fenomena tidak konsisten atribut pengekodan heterogen dan perbezaan kualiti maklumat antara modaliti, masalah pembelajaran tidak seimbang antara modaliti berlaku. Semasa proses gabungan pelbagai modal, model mungkin terlalu bergantung pada modaliti tertentu dan mengabaikan maklumat berpotensi berkesan yang terkandung dalam modaliti lain. (4)
Data berbilang modal berkualiti rendah dinamik: Disebabkan oleh kerumitan dan perubahan persekitaran aplikasi, sampel yang berbeza, masa dan ruang yang berbeza, kualiti mod mempunyai ciri perubahan yang dinamik. Kejadian data modal berkualiti rendah selalunya sukar untuk diramalkan terlebih dahulu, yang membawa cabaran kepada gabungan pelbagai mod. Untuk mencirikan sepenuhnya sifat dan kaedah pemprosesan data berbilang modal berkualiti rendah, artikel ini meringkaskan kaedah pembelajaran mesin semasa dalam bidang gabungan pelbagai mod berkualiti rendah, menyemak secara sistematik proses pembangunan dalam bidang ini, dan Isu yang memerlukan penyelidikan lanjut akan diprospek lebih lanjut.
多 Rajah 1. Gambarajah skema klasifikasi data multi-modal berkualiti rendah, kuning dan biru mewakili dua mod, semakin gelap warna mewakili kualiti yang lebih tinggi
Definisi Masalah:
. Bunyi bising adalah salah satu punca paling biasa kemerosotan kualiti data pelbagai mod. Artikel ini tertumpu terutamanya pada dua jenis hingar: Bunyi berbilang mod berkaitan mod
. Jenis hingar ini mungkin disebabkan oleh faktor seperti ralat penderia (seperti ralat instrumen dalam diagnosis perubatan), faktor persekitaran (seperti hujan dan kabus dalam pemanduan autonomi), dan hingar terhad kepada tahap ciri tertentu dalam mod tertentu. (2) Bunyi silang modal pada tahap semantik. Jenis hingar ini disebabkan oleh salah jajaran semantik peringkat tinggi antara modaliti, dan lebih sukar untuk dikendalikan daripada hingar berbilang modal pada lapisan ciri. Mujurlah, disebabkan kesepaduan antara mod data berbilang modal dan lebihan maklumat, menggabungkan maklumat daripada pelbagai modaliti untuk denoising telah terbukti sebagai strategi yang berkesan dalam proses gabungan pelbagai modal. Kaedah denoising pelbagai mod peringkat ciri sangat bergantung pada modaliti khusus yang terlibat dalam tugas sebenar.
Artikel ini terutamanya mengambil tugas gabungan imej berbilang modal sebagai contoh untuk digambarkan. Dalam gabungan imej berbilang modal, kaedah penyahnosian arus perdana termasuk gabungan berwajaran dan variasi sendi. . denoising variasi imej mod tunggal boleh mengubah proses denoising menjadi proses penyelesaian masalah pengoptimuman, dan menggunakan maklumat pelengkap daripada pelbagai modaliti untuk meningkatkan kesan denoising. Bunyi rentas mod peringkat semantik terhasil daripada pasangan sampel berbilang mod berjajar lemah atau tidak sejajar.
Sebagai contoh, dalam tugas pengesanan sasaran berbilang mod untuk menggabungkan imej RGB dan terma, disebabkan oleh perbezaan dalam penderia, walaupun sasaran yang sama muncul dalam kedua-dua modaliti, kedudukan dan sikapnya yang tepat adalah Mungkin terdapat sedikit perbezaan ( penjajaran lemah) dalam modaliti yang berbeza, yang membawa cabaran untuk menganggar maklumat kedudukan dengan tepat.
Dalam tugas memahami kandungan media sosial, maklumat semantik yang terkandung dalam imej dan modaliti teks sampel (seperti Weibo) mungkin sangat berbeza atau bahkan tidak relevan (tidak sejajar sepenuhnya), yang seterusnya Membawa cabaran yang lebih besar kepada gabungan pelbagai modal. Cara untuk menangani hingar semantik rentas mod termasuk penapisan peraturan, penapisan model, regularisasi model teguh hingar dan kaedah lain. . melemahkan kesan bunyi masih menjadi isu penyelidikan yang mendesak untuk diselesaikan.
Di samping itu, tidak seperti denoising tahap ciri tradisional, cara menyelesaikan hingar tahap semantik semasa proses pra-latihan dan inferens model besar berbilang modal adalah masalah yang menarik dan amat mencabar. Jadual 1. Klasifikasi kaedah gabungan pelbagai modal untuk bunyi missing kaedah gabungan data multi-modal in senario sebenar Data multimodal yang dikumpul selalunya tidak lengkap Disebabkan oleh pelbagai faktor seperti kerosakan pada peranti storan dan proses penghantaran data yang tidak boleh dipercayai, data multimodal selalunya kehilangan sebahagian daripada maklumat modal. Contohnya: dalam sistem pengesyoran, sejarah penyemakan imbas dan penarafan kredit pengguna membentuk data berbilang modal Namun, disebabkan isu kebenaran dan privasi, selalunya mustahil untuk mengumpul sepenuhnya semua maklumat mod pengguna untuk dibina data pelbagai modal. Dalam diagnosis perubatan, disebabkan peralatan yang terhad di sesetengah hospital dan kos pemeriksaan khusus yang tinggi, data diagnostik pelbagai mod untuk pesakit yang berbeza selalunya tidak lengkap. . . min; Kaedah penyelesaian berdasarkan graf atau kernel: Kaedah jenis ini tidak secara langsung mempelajari cara melengkapkan data berbilang modal asal, tetapi membina graf atau kernel untuk setiap modaliti, dan kemudian mempelajari Persamaan atau korelasi maklumat antara pasangan sampel, dan kemudian lengkapkan data yang hilang;
terus melengkapkan tahap ciri asal: beberapa kaedah menggunakan model generatif, seperti GAN rangkaian musuh generatif dan variannya secara langsung Lengkapkan ciri yang hilang.
(2) Kaedah gabungan pelbagai modal tanpa selesai.
Berbeza daripada kaedah berasaskan penyiapan, kaedah yang tidak memerlukan penyelesaian fokus pada cara menggunakan maklumat berguna yang terkandung dalam modaliti yang tidak hilang untuk menggabungkan representasi terbaik yang mungkin mempunyai kesan negatif tentang apa yang dijangka dipelajari. Perwakilan bersatu menambah kekangan
supaya perwakilan ini dapat mencerminkan maklumat lengkap data modal yang boleh diperhatikan untuk memintas proses penyiapan untuk gabungan pelbagai mod. Walaupun banyak kaedah telah dicadangkan di dalam dan luar negara untuk menyelesaikan pengelompokan , pengelasan dan tugas pembelajaran mesin klasik yang lain, tetapi masih terdapat beberapa cabaran yang lebih mendalam.
Contoh: Penilaian kualiti pada data penyiapan dalam skim penyiapan modal yang hilang sering diabaikan.
Selain itu, strategi menggunakan maklumat lokasi data yang hilang priori untuk menutup modaliti yang hilang itu sendiri adalah sukar untuk mengimbangi jurang maklumat dan ketidakseimbangan maklumat yang disebabkan oleh modaliti yang hilang.
Jadual 2. Klasifikasi kaedah gabungan untuk kehilangan data berbilang modal Dalam banyak Dalam pembelajaran modal, latihan bersama biasanya digunakan untuk mengintegrasikan data daripada modaliti yang berbeza untuk meningkatkan prestasi keseluruhan dan prestasi generalisasi model itu. Walau bagaimanapun, jenis paradigma latihan bersama yang diterima pakai secara meluas ini yang menggunakan objektif pembelajaran bersatu mengabaikan heterogeniti data dalam modaliti yang berbeza.
Keheterogenan modaliti yang berbeza dari segi sumber dan bentuk data
menjadikan mereka mempunyai ciri yang berbeza dari segi kelajuan penumpuan, dsb., menyukarkan semua modaliti untuk diproses dan dipelajari dengan baik pada masa yang sama , membawa kesukaran kepada pembelajaran bersama pelbagai modal; Walaupun semua modaliti menerangkan konsep yang sama, ia berbeza dalam jumlah maklumat yang berkaitan dengan acara sasaran atau objek sasaran. Rangkaian saraf dalam berdasarkan objektif pembelajaran kemungkinan maksimum mempunyai ciri pembelajaran tamak, menghasilkan model berbilang modal yang sering bergantung pada modaliti berkualiti tinggi dengan maklumat diskriminatif tinggi dan lebih mudah dipelajari, sementara tidak memodelkan maklumat modal lain yang mencukupi.
Untuk menangani cabaran ini dan meningkatkan kualiti pembelajaran model pelbagai mod, penyelidikan berkaitan pembelajaran pelbagai mod seimbang
telah mendapat perhatian meluas baru-baru ini.
Pengkelasan kaedah:
Mengikut sudut imbangan yang berbeza, kaedah berkaitan boleh dibahagikan kepada kaedah berdasarkan perbezaan ciri
dan
kaedah. . Kaedah berdasarkan perbezaan ciri bermula daripada perbezaan ciri pembelajaran setiap modaliti dan cuba menyelesaikan masalah ini dari segi matlamat pembelajaran, pengoptimuman, dan seni bina. (2) Penyelidikan terkini mendapati bahawa model pelbagai modal sering
sangat bergantung pada modaliti maklumat berkualiti tinggi tertentu
sambil mengabaikan modaliti lain, mengakibatkan pembelajaran semua modaliti tidak mencukupi. Kaedah berdasarkan perbezaan kualiti bermula dari perspektif ini dan cuba menyelesaikan masalah ini dan menggalakkan penggunaan seimbang modaliti yang berbeza dalam model berbilang modal dari perspektif objektif pembelajaran, kaedah pengoptimuman, seni bina model dan peningkatan data. Jadual 3. Klasifikasi kaedah gabungan data pelbagai mod yang seimbang Kaedah pembelajaran menyasarkan kepelbagaian data berbilang modal Perbezaan ciri pembelajaran atau kualiti data antara modaliti yang berbeza. Kaedah ini mencadangkan penyelesaian daripada perspektif yang berbeza seperti objektif pembelajaran, kaedah pengoptimuman, seni bina model dan peningkatan data.
Pembelajaran multimodal seimbang kini merupakan bidang yang berkembang pesat, dengan banyak arahan teori dan aplikasi yang belum diterokai sepenuhnya. Sebagai contoh, kaedah semasa terutamanya terhad kepada tugas berbilang modal biasa, yang kebanyakannya merupakan tugas diskriminatif dan beberapa tugas generatif. Selain itu, model besar multi-modal juga perlu menggabungkan data modal dengan kualiti yang berbeza Terdapat juga masalah ketidakseimbangan objektif ini, ia dijangka mengembangkan senario model besar berbilang modal mereka bentuk penyelesaian baharu.
dynamic Multimodal Fusion Methoddynamic Multimodal Data
refers kepada fakta bahawa kualiti modaliti berbeza -beza dengan sampel input dan senario perubahan dinamik. Sebagai contoh, dalam senario pemanduan autonomi, sistem memperoleh maklumat permukaan jalan dan sasaran melalui penderia RGB dan inframerah Di bawah keadaan pencahayaan yang baik, kamera RGB boleh menyokong pembuatan keputusan sistem pintar kerana ia dapat menangkap tekstur dan warna yang kaya. maklumat sasaran; Namun, pada waktu malam apabila cahaya tidak mencukupi, maklumat persepsi yang diberikan oleh sensor inframerah lebih dipercayai. Cara untuk membolehkan model untuk melihat secara automatik perubahan dalam kualiti modaliti yang berbeza, untuk melaksanakan gabungan yang tepat dan stabil, adalah tugas teras kaedah gabungan pelbagai mod dinamik. Jadual 4. Klasifikasi kaedah gabungan pelbagai modal dinamik
Kaedah gabungan pelbagai mod dinamik boleh dibahagikan secara kasar kepada tiga kategori:
(1) Kaedah gabungan dinamik heuristik:
kaedah bergantung pada pemahaman pereka algoritma tentang senario aplikasi model berbilang modal, dan umumnya dicapai dengan memperkenalkan mekanisme gabungan dinamik disasarkan.
Sebagai contoh, dalam tugas pengesanan sasaran berbilang mod bagi kerjasama isyarat RGB/terma, penyelidik secara heuristik mereka bentuk modul persepsi pencahayaan untuk menilai secara dinamik situasi pencahayaan imej input dan melaraskan berat RGB dan Fusion secara dinamik modaliti terma untuk penyesuaian alam sekitar. Apabila kecerahan tinggi, mod RGB digunakan terutamanya untuk membuat keputusan, dan sebaliknya, mod terma digunakan terutamanya untuk membuat keputusan. . Mekanisme perhatian itu sendiri mempunyai ciri dinamik, jadi ia boleh digunakan secara semula jadi dalam tugas gabungan dinamik berbilang modal. Perhatian diri, Perhatian Spatial, Perhatian Saluran dan Transformer dan mekanisme lain digunakan secara meluas dalam pembinaan model gabungan pelbagai mod. Kaedah sedemikian secara automatik mempelajari cara melakukan gabungan dinamik, didorong oleh matlamat tugas. Gabungan berdasarkan mekanisme perhatian boleh menyesuaikan diri dengan data multi-modal dinamik berkualiti rendah pada tahap tertentu tanpa adanya panduan yang jelas atau heuristik. . Berbeza daripada mod gabungan kompleks berdasarkan mekanisme perhatian, kaedah gabungan dinamik sedar ketidakpastian bergantung pada anggaran ketidakpastian modaliti (seperti bukti, tenaga, entropi, dll.) untuk menyesuaikan diri dengan data berbilang modal berkualiti rendah.
Secara khusus, persepsi ketidakpastian boleh digunakan untuk mencirikan perubahan kualiti setiap mod data input. Apabila kualiti modaliti tertentu sampel input menjadi rendah, ketidakpastian dalam membuat keputusan model berdasarkan modaliti itu menjadi lebih tinggi, memberikan panduan yang jelas untuk reka bentuk mekanisme gabungan seterusnya. Di samping itu, berbanding dengan heuristik dan mekanisme perhatian, kaedah gabungan dinamik yang menyedari ketidakpastian boleh memberikan jaminan teori yang baik.. kepada model gabungan, seperti CLIP/BLIP, dsb.), idea dinamik juga mempunyai potensi besar untuk penerokaan dan aplikasi. Selain itu, mekanisme gabungan dinamik dengan jaminan teori selalunya terhad kepada tahap membuat keputusan. Cara membuatnya berfungsi di peringkat perwakilan juga patut difikirkan dan diterokai. Atas ialah kandungan terperinci Gabungan data berbilang modal berkualiti rendah, pelbagai institusi bersama-sama menerbitkan kertas ulasan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!