Rumah Peranti teknologi AI CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas

CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas

Apr 24, 2024 pm 02:28 PM
git projek gabungan imej

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

  • paper Link: https://arxiv.org/abs/2403.12494
  • Code Link: https://github.com/yangsun22/tc-moa
  • paper Tajuk: Campuran Penyesuai Tersuai Tugas untuk Gabungan Imej Umum

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

融 Rajah 1 Imej sumber tugas gabungan yang berbeza pada perubahan keamatan dominan hasil gabungan
Latar belakang dan motivasi penyelidikan

Tujuan penderiaan yang berbeza adalah untuk menangkap fusion imej yang berbeza maklumat pelengkap imej berbilang sumber disepadukan ke dalam satu imej. Kaedah ini biasanya digunakan untuk mengekstrak maklumat penting daripada imej dan meningkatkan kualiti visual.

Pada masa ini, gabungan imej umum terutamanya merangkumi gabungan imej berbilang modal, berbilang pendedahan, berbilang fokus, dsb. Tugas gabungan mempamerkan mekanisme gabungan yang berbeza. Gabungan imej berbilang pendedahan (MEF) memfokuskan pada menukar jujukan imej dengan berbilang tahap pendedahan kepada imej pendedahan penuh berkualiti tinggi. Setiap imej sumber menyediakan pencahayaan dan maklumat strukturnya sendiri kepada imej bercantum. Gabungan imej inframerah boleh dilihat (VIF) ialah sejenis gabungan imej berbilang mod (MMF) yang bertujuan untuk menggabungkan maklumat pelengkap daripada modaliti inframerah dan boleh dilihat untuk menghasilkan imej bercantum yang teguh dan kaya dengan maklumat. Imej inframerah memberikan lebih banyak maklumat keamatan, manakala imej yang kelihatan memberikan lebih banyak maklumat tekstur dan kecerunan. Gabungan imej berbilang fokus (MFF) bertujuan untuk menghasilkan imej terfokus sepenuhnya daripada siri imej separa fokus. Setiap kawasan jelas bagi imej bercantum berbilang fokus biasanya hanya perlu dipelajari daripada satu imej sumber. Oleh itu, dapat diperhatikan bahawa tugas MEF dan VIF adalah gabungan berbilang sumber yang agak sama, manakala MFF ialah tugas dengan status berbilang sumber yang lebih ekstrem, selalunya menunjukkan pemilihan terpolarisasi untuk kawasan tertentu imej.

Dengan perkembangan pesat teknologi pembelajaran mendalam, kemajuan besar telah dicapai dalam bidang gabungan imej dalam beberapa tahun kebelakangan ini, bagaimanapun, kebanyakan kaedah sedia ada hanya tertumpu pada satu senario gabungan imej, biasanya menggunakan strategi tertentu untuk satu tugas, seperti untuk tertentu Rangkaian kompleks yang direka untuk tugasan atau fungsi kehilangan khusus tugas menghalangnya daripada digunakan secara langsung pada tugasan lain. Memandangkan intipati tugas gabungan yang berbeza adalah sama, iaitu, menyepadukan maklumat penting daripada imej berbilang sumber, beberapa kaedah yang dicadangkan baru-baru ini cuba menggunakan model bersatu untuk mengendalikan pelbagai tugas gabungan dan membina gabungan imej universal. Walau bagaimanapun, kaedah ini sama ada mengalami berat sebelah dominan tugas atau mengorbankan keperibadian untuk kesamaan pelbagai tugas, mengakibatkan prestasi suboptimum. Ini mendorong kami untuk meneroka paradigma gabungan yang lebih serasi yang boleh menyesuaikan diri dan serasi secara dinamik dengan senario gabungan yang berbeza.

Untuk menangani cabaran ini, diilhamkan oleh keupayaan perwakilan ciri yang berkuasa bagi model asas pra-latihan, kami memperkenalkan model asas sebagai pengekod beku untuk mengekstrak ciri pelengkap imej berbilang sumber. Berbeza daripada kebanyakan kaedah sedia ada, kami menggunakan idea Pakar Campuran (MoE) dan menganggap setiap pakar sebagai penyesuai diperhalusi yang cekap untuk melaksanakan gabungan kiu ciri visual adaptif berdasarkan model asas. Rangkaian penghalaan khusus tugas menyesuaikan gabungan penyesuai ini untuk menjana isyarat gabungan khusus tugas untuk sumber yang berbeza, membentuk seni bina Penyesuai Hibrid Tersuai Tugasan (TC-MoA) baharu. Di samping itu, kami mereka bentuk penyelarasan maklumat bersama untuk mengekang isyarat gabungan, dengan itu memastikan pelengkap kepada sumber yang berbeza. Terutama, isyarat gabungan mempunyai berat sebelah tugas yang ketara dan perbezaan kekuatan penguasaan modaliti. Seperti yang ditunjukkan dalam Rajah 1, isyarat MFF mempunyai perbezaan warna yang lebih besar daripada VIF dan MEF, menunjukkan bahawa pemilihan ciri adalah lebih bipolar dalam bias intensiti mod dominan. Model kami secara berkesan melihat bias kekuatan gabungan antara tugas gabungan yang berbeza dalam satu model dan oleh itu serasi dengan pelbagai tugas gabungan yang lebih luas.

Percubaan yang meluas telah mengesahkan keunggulan kami dalam gabungan imej umum, termasuk gabungan berbilang modal, pendedahan berbilang dan berbilang fokus. Lebih penting lagi, TC-MoA kami menunjukkan kebolehkawalan kreatif dan generalisasi walaupun kepada tugas gabungan yang tidak diketahui, menunjukkan sepenuhnya potensi kami dalam pelbagai senario gabungan yang lebih luas.

Sumbangan Utama

Kami mencadangkan model gabungan imej umum bersatu, menyediakan penyesuai hibrid disesuaikan tugasan baharu (TC-MoA) untuk gabungan imej gabungan berbilang sumber yang adaptif maklumat yang sah daripada skema masing-masing).
  • Kami mencadangkan kaedah penyelarasan maklumat bersama untuk penyesuai, yang membolehkan model kami mengenal pasti dengan lebih tepat keamatan dominan imej sumber yang berbeza.
  • Sepanjang pengetahuan kami, kami mencadangkan penyesuai fleksibel berasaskan KPM buat kali pertama. Dengan menambah hanya 2.8% daripada parameter yang boleh dipelajari, model kami boleh mengendalikan banyak tugas gabungan. Eksperimen yang meluas menunjukkan kelebihan kaedah bersaing kami sambil menunjukkan kebolehkawalan dan generalisasi yang ketara.. Kami memasukkan imej sumber ke dalam rangkaian ViT dan mendapatkan Token imej sumber melalui lapisan pengekodan patch. ViT terdiri daripada pengekod untuk pengekstrakan ciri dan penyahkod untuk pembinaan semula imej, yang kedua-duanya terdiri daripada blok Transformer.

Masukkan satu TC-MoA setiap
Blok Transformer dalam pengekod dan penyahkod. Rangkaian secara progresif memodulasi hasil gabungan melalui TC-MoA ini. Setiap TC-MoA terdiri daripada bank penghala khusus tugasan
, bank penyesuai perkongsian tugas dan lapisan gabungan pembayang F. TC-MoA terdiri daripada dua peringkat utama: penjanaan kiu dan gabungan dipacu kiu. Untuk kemudahan ekspresi, kami mengambil VIF sebagai contoh, andaikan input datang daripada set data VIF, dan gunakan G untuk mewakili . O Rajah 2 Seni bina keseluruhan TC-MOA

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Peringatan untuk menjana
. Pertama, ciri berbilang sumber diperolehi untuk pemprosesan seterusnya. Struktur rangkaian sebelum TC-MoA ke-J ditakrifkan sebagai
, dan ciri penjanaan kiu yang diekstrak ditakrifkan sebagai CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务. Kami menggabungkan CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 sebagai representasi ciri pasangan Token berbilang sumber. Ini membolehkan token daripada sumber berbeza bertukar maklumat dalam rangkaian seterusnya. Walau bagaimanapun, pengiraan terus ciri gabungan dimensi tinggi akan membawa sejumlah besar parameter yang tidak diperlukan. Oleh itu, kami menggunakan CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 untuk melakukan pengurangan dimensi ciri dan mendapatkan ciri berbilang sumber yang diproses CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Kemudian, mengikut tugas yang dimiliki Φ, kami memilih penghala khusus tugas dari bank penghala untuk menyesuaikan skema penghalaan, Iaitu, penyesuai mana dalam bank penyesuai harus dimasukkan untuk setiap pasangan token sumber.
Akhir sekali, kami melakukan jumlah wajaran keluaran penyesuai untuk mendapatkan petunjuk gabungan. Setiap penghala mempunyai keutamaan tugas untuk menyesuaikan campuran penyesuai yang sesuai, dan kemudian menjana pembayang daripada campuran penyesuai, dikira seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Gabungan dipacu segera. Petunjuk yang disesuaikan dengan tugas adalah tertakluk kepada penyelarasan maklumat bersama (MIR), yang menjamin pelengkap kepada sumber yang berbeza. Oleh itu, isyarat berfungsi sebagai anggaran bahagian maklumat penting dalam setiap sumber. Melalui produk titik ciri dan isyarat berbilang sumber, kami mengekalkan maklumat pelengkap sambil mengalih keluar maklumat berlebihan. Kemudian, dengan mengambil kira bahawa perwakilan ciri harus mengandungi bias yang bergantung kepada sumber (seperti imej yang boleh dilihat atau inframerah), kami memperkenalkan parameter boleh dipelajari bebas input untuk setiap sumber, iaitu, pengekodan sumber s. Selepas ciri diubah suai oleh pembayang dan bias sumber, kami mendapat ciri sumber yang diperhalusi CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, dan kemudian memperoleh ciri gabungan melalui lapisan gabungan F. Prosesnya adalah seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Akhir sekali, kami memperoleh ciri gabungan melalui petunjuk tersuai tugas. Untuk menggalakkan model mengekstrak maklumat penting langkah demi langkah, kami mentakrifkan output ciri ke blok Transformer seterusnya seperti berikut (CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 ialah hiperparameter):

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Maklumat Bersama Biasa. Untuk memastikan model mengekalkan maklumat pelengkap secara dinamik sambil membuang maklumat berlebihan daripada ciri berbilang sumber, kami mengenakan kekangan regularisasi pada gesaan. Dengan mengandaikan bahawa perwakilan ciri berubah secara linear, kami mentakrifkan MIR seperti berikut:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Hasil eksperimen

Eksperimen kualitatif dan kuantitatif. Seperti yang ditunjukkan dalam Rajah 3-5 dan Jadual 1-3, perbandingan kualitatif dan kuantitatif pada tiga tugas gabungan menunjukkan bahawa prestasi kaedah kami mengatasi kaedah gabungan umum sebelumnya. Berbanding dengan kaedah khusus tugasan, kaedah kami juga mencapai prestasi terkini pada semua tugasan malah membawa kepada beberapa tugasan (VIF). Kelebihan kaedah yang dicadangkan terbukti.务 Rajah 3 Set data LLVIP tugas VIF Percubaan perbandingan kualitatif

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Rajah 4 Set data MEF tugasan MEFB eksperimen perbandingan kualitatif

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 eksperimen perbandingan litatif pada data tugasan MFF set

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 Jadual 1 VIF set data LLVIP set data eksperimen perbandingan kuantitatif

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

🎜
Jadual 3 Eksperimen perbandingan kuantitatif pada tugas MFF LLVIP data set

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

kawalan dan penyebaran kepada tugas -tugas yang tidak diketahui

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

controllability dan generalisasi. Seperti yang ditunjukkan dalam Rajah 6, dengan mengawal hiperparameter α dan β gesaan gabungan, kami masing-masing boleh mengawal kekuatan pemilihan ciri model untuk maklumat pelengkap imej sumber (peringkat wilayah) dan persamaan antara imej bercantum dan imej sumber tertentu (tahap imej). Kita boleh menggabungkan isyarat melalui transformasi linear, akhirnya menghasilkan imej bersatu tersuai. Untuk tugas yang diketahui, seperti gabungan berbilang pendedahan, kami boleh mendapatkan hasil gabungan tersuai yang paling sesuai dengan persepsi manusia. Untuk tugasan yang tidak diketahui, kita boleh memodulasi parameter gabungan yang paling sesuai dan menyamaratakan model kepada tugas yang tidak diketahui.

Atas ialah kandungan terperinci CVPR 2024 |. Model gabungan imej umum berdasarkan KPM, menambah 2.8% parameter untuk menyelesaikan berbilang tugas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Memasang DeepSeek Cara Memasang DeepSeek Feb 19, 2025 pm 05:48 PM

Terdapat banyak cara untuk memasang DeepSeek, termasuk: Menyusun dari Sumber (untuk pemaju berpengalaman) menggunakan pakej yang dikompilasi (untuk pengguna Windows) menggunakan bekas docker (untuk yang paling mudah, tidak perlu bimbang tentang keserasian) Dokumen rasmi dengan berhati -hati dan menyediakannya sepenuhnya untuk mengelakkan masalah yang tidak perlu.

Ringkasan Soalan Lazim untuk Penggunaan DeepSeek Ringkasan Soalan Lazim untuk Penggunaan DeepSeek Feb 19, 2025 pm 03:45 PM

Panduan Pengguna Alat DeepSeekai dan FAQ DeepSeek adalah alat pintar AI yang kuat. FAQ: Perbezaan antara kaedah akses yang berbeza: Tidak ada perbezaan fungsi antara versi web, versi aplikasi dan panggilan API, dan aplikasi hanya pembungkus untuk versi web. Penggunaan tempatan menggunakan model penyulingan, yang sedikit lebih rendah daripada versi penuh DeepSeek-R1, tetapi model 32-bit secara teorinya mempunyai keupayaan versi penuh 90%. Apa itu bar? Sillytavern adalah antara muka depan yang memerlukan memanggil model AI melalui API atau Ollama. Apa itu Had Breaking

Apakah alat AI? Apakah alat AI? Nov 29, 2024 am 11:11 AM

Alat AI termasuk: Doubao, ChatGPT, Gemini, BlenderBot, dll.

Apakah Dana Amanah Penyulitan Kelabu? Apakah Dana Amanah Penyulitan Kelabu? Mar 05, 2025 pm 12:33 PM

Pelaburan Grayscale: Saluran untuk pelabur institusi untuk memasuki pasaran cryptocurrency. Syarikat itu telah melancarkan beberapa amanah crypto, yang telah menarik perhatian pasaran yang meluas, tetapi kesan dana ini pada harga token berbeza dengan ketara. Artikel ini akan memperkenalkan secara terperinci beberapa dana amanah utama Grayscale. Dana Grayscale Major Crypto Trust yang boleh didapati dengan sekilas Pelaburan Grayscale (yang diasaskan oleh DigitalCurrencyGroup pada tahun 2013) menguruskan pelbagai dana amanah aset crypto, menyediakan pelabur institusi dan individu yang bernilai tinggi dengan saluran pelaburan yang mematuhi. Dana utamanya termasuk: Zcash (Zec), Sol,

Delphi Digital: Bagaimana Mengubah Ekonomi AI Baru Dengan Mengurangkan Senibina Elizaos V2 Baru? Delphi Digital: Bagaimana Mengubah Ekonomi AI Baru Dengan Mengurangkan Senibina Elizaos V2 Baru? Mar 04, 2025 pm 07:00 PM

ELIZAOSV2: Memperkasakan AI dan memimpin ekonomi baru Web3. Artikel ini akan menyelam ke dalam inovasi utama ElizaOSv2 dan bagaimana ia membentuk ekonomi masa depan yang didorong oleh AI. AIT Automasi: Pergi secara bebas mengendalikan Elizaos pada asalnya merupakan rangka kerja AI yang memberi tumpuan kepada automasi Web3. Versi V1 membolehkan AI berinteraksi dengan kontrak pintar dan data blockchain, manakala versi V2 mencapai peningkatan prestasi yang signifikan. Daripada hanya melaksanakan arahan mudah, AI secara bebas dapat menguruskan aliran kerja, mengendalikan perniagaan dan membangunkan strategi kewangan. Peningkatan Seni Bina: Ditingkatkan a

Sebagai pembuat pasaran teratas memasuki pasaran crypto, apakah impak yang akan dimiliki oleh Castle Securities terhadap industri ini? Sebagai pembuat pasaran teratas memasuki pasaran crypto, apakah impak yang akan dimiliki oleh Castle Securities terhadap industri ini? Mar 04, 2025 pm 08:03 PM

Kemasukan pembuat pasaran Castle Securities ke dalam pembuat pasaran Bitcoin adalah simbol kematangan pasaran Bitcoin dan langkah utama bagi pasukan kewangan tradisional untuk bersaing untuk kuasa harga aset masa depan. Pada 25 Februari, menurut Bloomberg, Citadel Securities berusaha untuk menjadi penyedia kecairan untuk kriptografi. Syarikat itu bertujuan untuk menyertai senarai pembuat pasaran di pelbagai bursa, termasuk pertukaran yang dikendalikan oleh Coinbaseglobal, Binanceholdings dan Crypto.com, orang yang biasa dengan perkara itu berkata. Setelah diluluskan oleh pertukaran, syarikat itu pada mulanya merancang untuk menubuhkan pasukan pembuat pasaran di luar Amerika Syarikat. Langkah ini bukan hanya tanda

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal Mar 12, 2025 pm 01:03 PM

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai Ailab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi model bahasa besar visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual. Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM. Vis

Bitwise: perniagaan membeli bitcoin trend besar yang diabaikan Bitwise: perniagaan membeli bitcoin trend besar yang diabaikan Mar 05, 2025 pm 02:42 PM

Pemerhatian Mingguan: Perniagaan Menimbulkan Bitcoin - Perubahan Brewing Saya sering menunjukkan beberapa trend pasaran yang diabaikan dalam memo mingguan. Langkah MicroStrategy adalah contoh yang jelas. Ramai orang mungkin berkata, "MicroStrategy dan Michaelsaylor sudah terkenal, apa yang akan anda perhatikan?" Pandangan ini adalah satu sisi. Penyelidikan mendalam mengenai penggunaan Bitcoin sebagai aset rizab dalam beberapa bulan kebelakangan ini menunjukkan bahawa ini bukan kes terpencil, tetapi trend utama yang muncul. Saya meramalkan bahawa dalam 12-18 bulan akan datang, beratus-ratus syarikat akan mengikutinya dan membeli jumlah besar bitcoin

See all articles