Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.
- paper Link: https://arxiv.org/abs/2403.12494
- Code Link: https://github.com/yangsun22/tc-moa
- paper Tajuk: Campuran Penyesuai Tersuai Tugas untuk Gabungan Imej Umum
融 Rajah 1 Imej sumber tugas gabungan yang berbeza pada perubahan keamatan dominan hasil gabungan
Latar belakang dan motivasi penyelidikan
Tujuan penderiaan yang berbeza adalah untuk menangkap fusion imej yang berbeza maklumat pelengkap imej berbilang sumber disepadukan ke dalam satu imej. Kaedah ini biasanya digunakan untuk mengekstrak maklumat penting daripada imej dan meningkatkan kualiti visual. Pada masa ini, gabungan imej umum terutamanya merangkumi gabungan imej berbilang modal, berbilang pendedahan, berbilang fokus, dsb. Tugas gabungan mempamerkan mekanisme gabungan yang berbeza. Gabungan imej berbilang pendedahan (MEF) memfokuskan pada menukar jujukan imej dengan berbilang tahap pendedahan kepada imej pendedahan penuh berkualiti tinggi. Setiap imej sumber menyediakan pencahayaan dan maklumat strukturnya sendiri kepada imej bercantum. Gabungan imej inframerah boleh dilihat (VIF) ialah sejenis gabungan imej berbilang mod (MMF) yang bertujuan untuk menggabungkan maklumat pelengkap daripada modaliti inframerah dan boleh dilihat untuk menghasilkan imej bercantum yang teguh dan kaya dengan maklumat. Imej inframerah memberikan lebih banyak maklumat keamatan, manakala imej yang kelihatan memberikan lebih banyak maklumat tekstur dan kecerunan. Gabungan imej berbilang fokus (MFF) bertujuan untuk menghasilkan imej terfokus sepenuhnya daripada siri imej separa fokus. Setiap kawasan jelas bagi imej bercantum berbilang fokus biasanya hanya perlu dipelajari daripada satu imej sumber. Oleh itu, dapat diperhatikan bahawa tugas MEF dan VIF adalah gabungan berbilang sumber yang agak sama, manakala MFF ialah tugas dengan status berbilang sumber yang lebih ekstrem, selalunya menunjukkan pemilihan terpolarisasi untuk kawasan tertentu imej. Dengan perkembangan pesat teknologi pembelajaran mendalam, kemajuan besar telah dicapai dalam bidang gabungan imej dalam beberapa tahun kebelakangan ini, bagaimanapun, kebanyakan kaedah sedia ada hanya tertumpu pada satu senario gabungan imej, biasanya menggunakan strategi tertentu untuk satu tugas, seperti untuk tertentu Rangkaian kompleks yang direka untuk tugasan atau fungsi kehilangan khusus tugas menghalangnya daripada digunakan secara langsung pada tugasan lain. Memandangkan intipati tugas gabungan yang berbeza adalah sama, iaitu, menyepadukan maklumat penting daripada imej berbilang sumber, beberapa kaedah yang dicadangkan baru-baru ini cuba menggunakan model bersatu untuk mengendalikan pelbagai tugas gabungan dan membina gabungan imej universal. Walau bagaimanapun, kaedah ini sama ada mengalami berat sebelah dominan tugas atau mengorbankan keperibadian untuk kesamaan pelbagai tugas, mengakibatkan prestasi suboptimum. Ini mendorong kami untuk meneroka paradigma gabungan yang lebih serasi yang boleh menyesuaikan diri dan serasi secara dinamik dengan senario gabungan yang berbeza. Untuk menangani cabaran ini, diilhamkan oleh keupayaan perwakilan ciri yang berkuasa bagi model asas pra-latihan, kami memperkenalkan model asas sebagai pengekod beku untuk mengekstrak ciri pelengkap imej berbilang sumber. Berbeza daripada kebanyakan kaedah sedia ada, kami menggunakan idea Pakar Campuran (MoE) dan menganggap setiap pakar sebagai penyesuai diperhalusi yang cekap untuk melaksanakan gabungan kiu ciri visual adaptif berdasarkan model asas. Rangkaian penghalaan khusus tugas menyesuaikan gabungan penyesuai ini untuk menjana isyarat gabungan khusus tugas untuk sumber yang berbeza, membentuk seni bina Penyesuai Hibrid Tersuai Tugasan (TC-MoA) baharu. Di samping itu, kami mereka bentuk penyelarasan maklumat bersama untuk mengekang isyarat gabungan, dengan itu memastikan pelengkap kepada sumber yang berbeza. Terutama, isyarat gabungan mempunyai berat sebelah tugas yang ketara dan perbezaan kekuatan penguasaan modaliti. Seperti yang ditunjukkan dalam Rajah 1, isyarat MFF mempunyai perbezaan warna yang lebih besar daripada VIF dan MEF, menunjukkan bahawa pemilihan ciri adalah lebih bipolar dalam bias intensiti mod dominan. Model kami secara berkesan melihat bias kekuatan gabungan antara tugas gabungan yang berbeza dalam satu model dan oleh itu serasi dengan pelbagai tugas gabungan yang lebih luas. Percubaan yang meluas telah mengesahkan keunggulan kami dalam gabungan imej umum, termasuk gabungan berbilang modal, pendedahan berbilang dan berbilang fokus. Lebih penting lagi, TC-MoA kami menunjukkan kebolehkawalan kreatif dan generalisasi walaupun kepada tugas gabungan yang tidak diketahui, menunjukkan sepenuhnya potensi kami dalam pelbagai senario gabungan yang lebih luas. Sumbangan Utama
Kami mencadangkan model gabungan imej umum bersatu, menyediakan penyesuai hibrid disesuaikan tugasan baharu (TC-MoA) untuk gabungan imej gabungan berbilang sumber yang adaptif maklumat yang sah daripada skema masing-masing).
- Kami mencadangkan kaedah penyelarasan maklumat bersama untuk penyesuai, yang membolehkan model kami mengenal pasti dengan lebih tepat keamatan dominan imej sumber yang berbeza.
- Sepanjang pengetahuan kami, kami mencadangkan penyesuai fleksibel berasaskan KPM buat kali pertama. Dengan menambah hanya 2.8% daripada parameter yang boleh dipelajari, model kami boleh mengendalikan banyak tugas gabungan. Eksperimen yang meluas menunjukkan kelebihan kaedah bersaing kami sambil menunjukkan kebolehkawalan dan generalisasi yang ketara.. Kami memasukkan imej sumber ke dalam rangkaian ViT dan mendapatkan Token imej sumber melalui lapisan pengekodan patch. ViT terdiri daripada pengekod untuk pengekstrakan ciri dan penyahkod untuk pembinaan semula imej, yang kedua-duanya terdiri daripada blok Transformer.
Masukkan satu TC-MoA setiap Blok Transformer dalam pengekod dan penyahkod. Rangkaian secara progresif memodulasi hasil gabungan melalui TC-MoA ini. Setiap TC-MoA terdiri daripada bank penghala khusus tugasan
, bank penyesuai perkongsian tugas dan lapisan gabungan pembayang F. TC-MoA terdiri daripada dua peringkat utama: penjanaan kiu dan gabungan dipacu kiu. Untuk kemudahan ekspresi, kami mengambil VIF sebagai contoh, andaikan input datang daripada set data VIF, dan gunakan G untuk mewakili . O Rajah 2 Seni bina keseluruhan TC-MOA . Pertama, ciri berbilang sumber diperolehi untuk pemprosesan seterusnya. Struktur rangkaian sebelum TC-MoA ke-J ditakrifkan sebagai
, dan ciri penjanaan kiu yang diekstrak ditakrifkan sebagai . Kami menggabungkan sebagai representasi ciri pasangan Token berbilang sumber. Ini membolehkan token daripada sumber berbeza bertukar maklumat dalam rangkaian seterusnya. Walau bagaimanapun, pengiraan terus ciri gabungan dimensi tinggi akan membawa sejumlah besar parameter yang tidak diperlukan. Oleh itu, kami menggunakan untuk melakukan pengurangan dimensi ciri dan mendapatkan ciri berbilang sumber yang diproses , seperti berikut:
Kemudian, mengikut tugas yang dimiliki Φ, kami memilih penghala khusus tugas dari bank penghala untuk menyesuaikan skema penghalaan, Iaitu, penyesuai mana dalam bank penyesuai harus dimasukkan untuk setiap pasangan token sumber. Akhir sekali, kami melakukan jumlah wajaran keluaran penyesuai untuk mendapatkan petunjuk gabungan. Setiap penghala mempunyai keutamaan tugas untuk menyesuaikan campuran penyesuai yang sesuai, dan kemudian menjana pembayang daripada campuran penyesuai, dikira seperti berikut:
Gabungan dipacu segera. Petunjuk yang disesuaikan dengan tugas adalah tertakluk kepada penyelarasan maklumat bersama (MIR), yang menjamin pelengkap kepada sumber yang berbeza. Oleh itu, isyarat berfungsi sebagai anggaran bahagian maklumat penting dalam setiap sumber. Melalui produk titik ciri dan isyarat berbilang sumber, kami mengekalkan maklumat pelengkap sambil mengalih keluar maklumat berlebihan. Kemudian, dengan mengambil kira bahawa perwakilan ciri harus mengandungi bias yang bergantung kepada sumber (seperti imej yang boleh dilihat atau inframerah), kami memperkenalkan parameter boleh dipelajari bebas input untuk setiap sumber, iaitu, pengekodan sumber s. Selepas ciri diubah suai oleh pembayang dan bias sumber, kami mendapat ciri sumber yang diperhalusi , dan kemudian memperoleh ciri gabungan melalui lapisan gabungan F. Prosesnya adalah seperti berikut:
Akhir sekali, kami memperoleh ciri gabungan melalui petunjuk tersuai tugas. Untuk menggalakkan model mengekstrak maklumat penting langkah demi langkah, kami mentakrifkan output ciri ke blok Transformer seterusnya seperti berikut ( ialah hiperparameter):
Maklumat Bersama Biasa. Untuk memastikan model mengekalkan maklumat pelengkap secara dinamik sambil membuang maklumat berlebihan daripada ciri berbilang sumber, kami mengenakan kekangan regularisasi pada gesaan. Dengan mengandaikan bahawa perwakilan ciri berubah secara linear, kami mentakrifkan MIR seperti berikut:
Eksperimen kualitatif dan kuantitatif. Seperti yang ditunjukkan dalam Rajah 3-5 dan Jadual 1-3, perbandingan kualitatif dan kuantitatif pada tiga tugas gabungan menunjukkan bahawa prestasi kaedah kami mengatasi kaedah gabungan umum sebelumnya. Berbanding dengan kaedah khusus tugasan, kaedah kami juga mencapai prestasi terkini pada semua tugasan malah membawa kepada beberapa tugasan (VIF). Kelebihan kaedah yang dicadangkan terbukti.务 Rajah 3 Set data LLVIP tugas VIF Percubaan perbandingan kualitatif
Rajah 4 Set data MEF tugasan MEFB eksperimen perbandingan kualitatif
eksperimen perbandingan litatif pada data tugasan MFF set
Jadual 1 VIF set data LLVIP set data eksperimen perbandingan kuantitatif
🎜 Jadual 3 Eksperimen perbandingan kuantitatif pada tugas MFF LLVIP data set
kawalan dan penyebaran kepada tugas -tugas yang tidak diketahui
controllability dan generalisasi. Seperti yang ditunjukkan dalam Rajah 6, dengan mengawal hiperparameter α dan β gesaan gabungan, kami masing-masing boleh mengawal kekuatan pemilihan ciri model untuk maklumat pelengkap imej sumber (peringkat wilayah) dan persamaan antara imej bercantum dan imej sumber tertentu (tahap imej). Kita boleh menggabungkan isyarat melalui transformasi linear, akhirnya menghasilkan imej bersatu tersuai. Untuk tugas yang diketahui, seperti gabungan berbilang pendedahan, kami boleh mendapatkan hasil gabungan tersuai yang paling sesuai dengan persepsi manusia. Untuk tugasan yang tidak diketahui, kita boleh memodulasi parameter gabungan yang paling sesuai dan menyamaratakan model kepada tugas yang tidak diketahui. Atas ialah kandungan terperinci CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!