masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah

Peranti teknologi

AI

CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas

CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas

PHPz

Apr 24, 2024 pm 02:28 PM

git projek gabungan imej

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

paper Link: https://arxiv.org/abs/2403.12494
Code Link: https://github.com/yangsun22/tc-moa
paper Tajuk: Campuran Penyesuai Tersuai Tugas untuk Gabungan Imej Umum

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

融 Rajah 1 Imej sumber tugas gabungan yang berbeza pada perubahan keamatan dominan hasil gabungan

Latar belakang dan motivasi penyelidikan

Tujuan penderiaan yang berbeza adalah untuk menangkap fusion imej yang berbeza maklumat pelengkap imej berbilang sumber disepadukan ke dalam satu imej. Kaedah ini biasanya digunakan untuk mengekstrak maklumat penting daripada imej dan meningkatkan kualiti visual.

Pada masa ini, gabungan imej umum terutamanya merangkumi gabungan imej berbilang modal, berbilang pendedahan, berbilang fokus, dsb. Tugas gabungan mempamerkan mekanisme gabungan yang berbeza. Gabungan imej berbilang pendedahan (MEF) memfokuskan pada menukar jujukan imej dengan berbilang tahap pendedahan kepada imej pendedahan penuh berkualiti tinggi. Setiap imej sumber menyediakan pencahayaan dan maklumat strukturnya sendiri kepada imej bercantum. Gabungan imej inframerah boleh dilihat (VIF) ialah sejenis gabungan imej berbilang mod (MMF) yang bertujuan untuk menggabungkan maklumat pelengkap daripada modaliti inframerah dan boleh dilihat untuk menghasilkan imej bercantum yang teguh dan kaya dengan maklumat. Imej inframerah memberikan lebih banyak maklumat keamatan, manakala imej yang kelihatan memberikan lebih banyak maklumat tekstur dan kecerunan. Gabungan imej berbilang fokus (MFF) bertujuan untuk menghasilkan imej terfokus sepenuhnya daripada siri imej separa fokus. Setiap kawasan jelas bagi imej bercantum berbilang fokus biasanya hanya perlu dipelajari daripada satu imej sumber. Oleh itu, dapat diperhatikan bahawa tugas MEF dan VIF adalah gabungan berbilang sumber yang agak sama, manakala MFF ialah tugas dengan status berbilang sumber yang lebih ekstrem, selalunya menunjukkan pemilihan terpolarisasi untuk kawasan tertentu imej.

Dengan perkembangan pesat teknologi pembelajaran mendalam, kemajuan besar telah dicapai dalam bidang gabungan imej dalam beberapa tahun kebelakangan ini, bagaimanapun, kebanyakan kaedah sedia ada hanya tertumpu pada satu senario gabungan imej, biasanya menggunakan strategi tertentu untuk satu tugas, seperti untuk tertentu Rangkaian kompleks yang direka untuk tugasan atau fungsi kehilangan khusus tugas menghalangnya daripada digunakan secara langsung pada tugasan lain. Memandangkan intipati tugas gabungan yang berbeza adalah sama, iaitu, menyepadukan maklumat penting daripada imej berbilang sumber, beberapa kaedah yang dicadangkan baru-baru ini cuba menggunakan model bersatu untuk mengendalikan pelbagai tugas gabungan dan membina gabungan imej universal. Walau bagaimanapun, kaedah ini sama ada mengalami berat sebelah dominan tugas atau mengorbankan keperibadian untuk kesamaan pelbagai tugas, mengakibatkan prestasi suboptimum. Ini mendorong kami untuk meneroka paradigma gabungan yang lebih serasi yang boleh menyesuaikan diri dan serasi secara dinamik dengan senario gabungan yang berbeza.

Untuk menangani cabaran ini, diilhamkan oleh keupayaan perwakilan ciri yang berkuasa bagi model asas pra-latihan, kami memperkenalkan model asas sebagai pengekod beku untuk mengekstrak ciri pelengkap imej berbilang sumber. Berbeza daripada kebanyakan kaedah sedia ada, kami menggunakan idea Pakar Campuran (MoE) dan menganggap setiap pakar sebagai penyesuai diperhalusi yang cekap untuk melaksanakan gabungan kiu ciri visual adaptif berdasarkan model asas. Rangkaian penghalaan khusus tugas menyesuaikan gabungan penyesuai ini untuk menjana isyarat gabungan khusus tugas untuk sumber yang berbeza, membentuk seni bina Penyesuai Hibrid Tersuai Tugasan (TC-MoA) baharu. Di samping itu, kami mereka bentuk penyelarasan maklumat bersama untuk mengekang isyarat gabungan, dengan itu memastikan pelengkap kepada sumber yang berbeza. Terutama, isyarat gabungan mempunyai berat sebelah tugas yang ketara dan perbezaan kekuatan penguasaan modaliti. Seperti yang ditunjukkan dalam Rajah 1, isyarat MFF mempunyai perbezaan warna yang lebih besar daripada VIF dan MEF, menunjukkan bahawa pemilihan ciri adalah lebih bipolar dalam bias intensiti mod dominan. Model kami secara berkesan melihat bias kekuatan gabungan antara tugas gabungan yang berbeza dalam satu model dan oleh itu serasi dengan pelbagai tugas gabungan yang lebih luas.

Percubaan yang meluas telah mengesahkan keunggulan kami dalam gabungan imej umum, termasuk gabungan berbilang modal, pendedahan berbilang dan berbilang fokus. Lebih penting lagi, TC-MoA kami menunjukkan kebolehkawalan kreatif dan generalisasi walaupun kepada tugas gabungan yang tidak diketahui, menunjukkan sepenuhnya potensi kami dalam pelbagai senario gabungan yang lebih luas.

Sumbangan Utama

Kami mencadangkan model gabungan imej umum bersatu, menyediakan penyesuai hibrid disesuaikan tugasan baharu (TC-MoA) untuk gabungan imej gabungan berbilang sumber yang adaptif maklumat yang sah daripada skema masing-masing).

Kami mencadangkan kaedah penyelarasan maklumat bersama untuk penyesuai, yang membolehkan model kami mengenal pasti dengan lebih tepat keamatan dominan imej sumber yang berbeza.
Sepanjang pengetahuan kami, kami mencadangkan penyesuai fleksibel berasaskan KPM buat kali pertama. Dengan menambah hanya 2.8% daripada parameter yang boleh dipelajari, model kami boleh mengendalikan banyak tugas gabungan. Eksperimen yang meluas menunjukkan kelebihan kaedah bersaing kami sambil menunjukkan kebolehkawalan dan generalisasi yang ketara.. Kami memasukkan imej sumber ke dalam rangkaian ViT dan mendapatkan Token imej sumber melalui lapisan pengekodan patch. ViT terdiri daripada pengekod untuk pengekstrakan ciri dan penyahkod untuk pembinaan semula imej, yang kedua-duanya terdiri daripada blok Transformer.

Masukkan satu TC-MoA setiap

Blok Transformer dalam pengekod dan penyahkod. Rangkaian secara progresif memodulasi hasil gabungan melalui TC-MoA ini. Setiap TC-MoA terdiri daripada bank penghala khusus tugasan

, bank penyesuai perkongsian tugas dan lapisan gabungan pembayang F. TC-MoA terdiri daripada dua peringkat utama: penjanaan kiu dan gabungan dipacu kiu. Untuk kemudahan ekspresi, kami mengambil VIF sebagai contoh, andaikan input datang daripada set data VIF, dan gunakan G untuk mewakili . O Rajah 2 Seni bina keseluruhan TC-MOA

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Peringatan untuk menjana

. Pertama, ciri berbilang sumber diperolehi untuk pemprosesan seterusnya. Struktur rangkaian sebelum TC-MoA ke-J ditakrifkan sebagai

, dan ciri penjanaan kiu yang diekstrak ditakrifkan sebagai CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

. Kami menggabungkan CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

sebagai representasi ciri pasangan Token berbilang sumber. Ini membolehkan token daripada sumber berbeza bertukar maklumat dalam rangkaian seterusnya. Walau bagaimanapun, pengiraan terus ciri gabungan dimensi tinggi akan membawa sejumlah besar parameter yang tidak diperlukan. Oleh itu, kami menggunakan CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

untuk melakukan pengurangan dimensi ciri dan mendapatkan ciri berbilang sumber yang diproses CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

, seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Kemudian, mengikut tugas yang dimiliki Φ, kami memilih penghala khusus tugas dari bank penghala untuk menyesuaikan skema penghalaan, Iaitu, penyesuai mana dalam bank penyesuai harus dimasukkan untuk setiap pasangan token sumber.

Akhir sekali, kami melakukan jumlah wajaran keluaran penyesuai untuk mendapatkan petunjuk gabungan. Setiap penghala mempunyai keutamaan tugas untuk menyesuaikan campuran penyesuai yang sesuai, dan kemudian menjana pembayang daripada campuran penyesuai, dikira seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Gabungan dipacu segera. Petunjuk yang disesuaikan dengan tugas adalah tertakluk kepada penyelarasan maklumat bersama (MIR), yang menjamin pelengkap kepada sumber yang berbeza. Oleh itu, isyarat berfungsi sebagai anggaran bahagian maklumat penting dalam setiap sumber. Melalui produk titik ciri dan isyarat berbilang sumber, kami mengekalkan maklumat pelengkap sambil mengalih keluar maklumat berlebihan. Kemudian, dengan mengambil kira bahawa perwakilan ciri harus mengandungi bias yang bergantung kepada sumber (seperti imej yang boleh dilihat atau inframerah), kami memperkenalkan parameter boleh dipelajari bebas input untuk setiap sumber, iaitu, pengekodan sumber s. Selepas ciri diubah suai oleh pembayang dan bias sumber, kami mendapat ciri sumber yang diperhalusi CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

, dan kemudian memperoleh ciri gabungan melalui lapisan gabungan F. Prosesnya adalah seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Akhir sekali, kami memperoleh ciri gabungan melalui petunjuk tersuai tugas. Untuk menggalakkan model mengekstrak maklumat penting langkah demi langkah, kami mentakrifkan output ciri ke blok Transformer seterusnya seperti berikut ( CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

ialah hiperparameter):

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Maklumat Bersama Biasa. Untuk memastikan model mengekalkan maklumat pelengkap secara dinamik sambil membuang maklumat berlebihan daripada ciri berbilang sumber, kami mengenakan kekangan regularisasi pada gesaan. Dengan mengandaikan bahawa perwakilan ciri berubah secara linear, kami mentakrifkan MIR seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Hasil eksperimen

Eksperimen kualitatif dan kuantitatif. Seperti yang ditunjukkan dalam Rajah 3-5 dan Jadual 1-3, perbandingan kualitatif dan kuantitatif pada tiga tugas gabungan menunjukkan bahawa prestasi kaedah kami mengatasi kaedah gabungan umum sebelumnya. Berbanding dengan kaedah khusus tugasan, kaedah kami juga mencapai prestasi terkini pada semua tugasan malah membawa kepada beberapa tugasan (VIF). Kelebihan kaedah yang dicadangkan terbukti.务 Rajah 3 Set data LLVIP tugas VIF Percubaan perbandingan kualitatif

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

Rajah 4 Set data MEF tugasan MEFB eksperimen perbandingan kualitatif

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务 eksperimen perbandingan litatif pada data tugasan MFF set

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务 Jadual 1 VIF set data LLVIP set data eksperimen perbandingan kuantitatif

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

🎜

^{Jadual 3 Eksperimen perbandingan kuantitatif pada tugas MFF LLVIP data set}

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

^{kawalan dan penyebaran kepada tugas -tugas yang tidak diketahui}

CVPR 2024 | 基于MoE的通用图像融合模型，添加2.8%参数完成多项任务

controllability dan generalisasi. Seperti yang ditunjukkan dalam Rajah 6, dengan mengawal hiperparameter α dan β gesaan gabungan, kami masing-masing boleh mengawal kekuatan pemilihan ciri model untuk maklumat pelengkap imej sumber (peringkat wilayah) dan persamaan antara imej bercantum dan imej sumber tertentu (tahap imej). Kita boleh menggabungkan isyarat melalui transformasi linear, akhirnya menghasilkan imej bersatu tersuai. Untuk tugas yang diketahui, seperti gabungan berbilang pendedahan, kami boleh mendapatkan hasil gabungan tersuai yang paling sesuai dengan persepsi manusia. Untuk tugasan yang tidak diketahui, kita boleh memodulasi parameter gabungan yang paling sesuai dan menyamaratakan model kepada tugas yang tidak diketahui.

Atas ialah kandungan terperinci CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7442

15

Tutorial CakePHP

1371

52

Apakah format nama akaun stim

76

11

kunci pengaktifan win11 kekal

38

19

Sambungan NYT menunjukkan dan jawapan

9

6

Tunjukkan Lagi

Related knowledge

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO?

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Bitwise: perniagaan membeli bitcoin trend besar yang diabaikan

Bitwise: perniagaan membeli bitcoin trend besar yang diabaikan Mar 05, 2025 pm 02:42 PM

Pemerhatian Mingguan: Perniagaan Menimbulkan Bitcoin - Perubahan Brewing Saya sering menunjukkan beberapa trend pasaran yang diabaikan dalam memo mingguan. Langkah MicroStrategy adalah contoh yang jelas. Ramai orang mungkin berkata, "MicroStrategy dan Michaelsaylor sudah terkenal, apa yang akan anda perhatikan?" Pandangan ini adalah satu sisi. Penyelidikan mendalam mengenai penggunaan Bitcoin sebagai aset rizab dalam beberapa bulan kebelakangan ini menunjukkan bahawa ini bukan kes terpencil, tetapi trend utama yang muncul. Saya meramalkan bahawa dalam 12-18 bulan akan datang, beratus-ratus syarikat akan mengikutinya dan membeli jumlah besar bitcoin

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal Mar 12, 2025 pm 01:03 PM

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai Ailab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi model bahasa besar visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual. Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM. Vis

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal?

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Apr 02, 2025 pm 04:12 PM

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404?

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Apakah beberapa sumber siap sedia ada?

Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Apakah beberapa sumber siap sedia ada? Apr 01, 2025 am 08:15 AM

Penerangan Soalan: Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Adakah sumber sedia ada yang ada? Dapatkan tepat dalam e-dagang rentas sempadan atau perniagaan global ...

Typecho Route Conflict Conflict: Kenapa saya/TEST/TAG/HIS/10086 Pencocokan TestTagIndex dan bukannya TestTagPage?

Typecho Route Conflict Conflict: Kenapa saya/TEST/TAG/HIS/10086 Pencocokan TestTagIndex dan bukannya TestTagPage? Apr 01, 2025 am 09:03 AM

TypeCho Routing Pencocokan Peraturan Analisis dan Penyiasatan Masalah Artikel ini akan menganalisis dan menjawab soalan mengenai hasil yang tidak konsisten dari pendaftaran routing plug-in typecho dan hasil padanan sebenar ...

Python Hourglass Graph Lukisan: Bagaimana untuk mengelakkan kesilapan yang tidak ditentukan?

Python Hourglass Graph Lukisan: Bagaimana untuk mengelakkan kesilapan yang tidak ditentukan? Apr 01, 2025 pm 06:27 PM

Bermula dengan Python: Lukisan Grafik Hourglass dan Pengesahan Input Artikel ini akan menyelesaikan masalah definisi berubah -ubah yang dihadapi oleh pemula python dalam program lukisan grafik Hourglass. Kod ...

See all articles