기술 주변기기 일체 포함 CVPR 2024 | MoE를 기반으로 하는 일반 이미지 융합 모델로, 여러 작업을 완료하기 위해 2.8% 매개변수를 추가합니다.

CVPR 2024 | MoE를 기반으로 하는 일반 이미지 융합 모델로, 여러 작업을 완료하기 위해 2.8% 매개변수를 추가합니다.

Apr 24, 2024 pm 02:28 PM
git 프로젝트 이미지 융합

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

  • 논문 링크: https://arxiv.org/abs/2403.12494
  • 코드 링크: https://github.com/YangSun22/TC-MoA
  • 논문 제목: 일반 이미지 융합을 위한 작업 맞춤형 어댑터 혼합

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

融 그림 1 융합 결과의 주요 강도 변화에 대한 다양한 융합 작업의 소스 이미지
연구 배경 및 동기

이미지 융합 목적은 동일한 장면에서 다양한 센서를 캡처하는 것입니다. 여러 소스 이미지의 보완 정보가 하나의 이미지로 통합됩니다. 이 방법은 일반적으로 이미지에서 중요한 정보를 추출하고 시각적 품질을 향상시키는 데 사용됩니다.

현재 일반 이미지 융합에는 주로 다중 모드, 다중 노출, 다중 초점 이미지 융합 등이 포함됩니다. 융합 작업은 다양한 융합 메커니즘을 나타냅니다. 다중 노출 이미지 융합(MEF)은 여러 노출 수준의 이미지 시퀀스를 고품질 전체 노출 이미지로 변환하는 데 중점을 둡니다. 각 소스 이미지는 융합된 이미지에 자체 조명 및 구조 정보를 제공합니다. 가시적외선 이미지 융합(VIF)은 적외선 및 가시광 양식의 보완 정보를 융합하여 견고하고 정보가 풍부한 융합 이미지를 생성하는 것을 목표로 하는 다중 모드 이미지 융합(MMF)의 한 유형입니다. 적외선 이미지는 더 많은 강도 정보를 제공하는 반면, 가시광선 이미지는 더 많은 질감 및 그라데이션 정보를 제공합니다. 다중 초점 이미지 융합(MFF)의 목적은 부분적으로 초점이 맞춰진 일련의 이미지에서 완전히 초점이 맞춰진 이미지를 생성하는 것입니다. 다중 초점 융합 이미지의 각 명확한 영역은 일반적으로 하나의 소스 이미지에서만 학습하면 됩니다. 따라서 MEF와 VIF 작업은 여러 소스를 비교적 동일하게 융합한 반면, MFF는 보다 극단적인 다중 소스 상태를 갖는 작업으로 이미지의 특정 영역에 대해 편광 선택을 나타내는 경우가 많다는 것을 알 수 있습니다.

딥러닝 기술의 급속한 발전으로 최근 이미지 융합 분야에서 큰 발전이 이루어졌습니다. 그러나 기존 방법의 대부분은 단일 이미지 융합 시나리오에만 초점을 맞추고 일반적으로 특정 전략을 사용합니다. 특정 작업을 위해 설계된 복잡한 네트워크나 작업별 손실 함수로 인해 다른 작업에 직접 적용할 수 없습니다. 서로 다른 융합 작업의 본질은 동일하다는 점, 즉 여러 소스 이미지의 중요한 정보를 통합한다는 점을 고려하여 최근 제안된 일부 방법에서는 통합 모델을 사용하여 여러 융합 작업을 처리하고 보편적인 이미지 융합을 구축하려고 합니다. 그러나 이러한 방법은 작업 지배적 편향으로 인해 어려움을 겪거나 다중 작업 공통성을 위해 개별성을 희생하여 차선의 성능을 초래합니다. 이는 우리가 다양한 융합 시나리오와 적응적이고 동적으로 호환될 수 있는 보다 호환 가능한 융합 패러다임을 탐색하도록 동기를 부여합니다.

이 과제를 해결하기 위해 사전 학습된 기본 모델의 강력한 특징 표현 기능에서 영감을 받아 기본 모델을 다중 소스 이미지의 보완적인 특징을 추출하는 고정 인코더로 도입합니다. 대부분의 기존 방법과 달리 MoE(Mixed Experts) 아이디어를 활용하고 각 전문가를 효율적인 미세 조정 어댑터로 취급하여 기본 모델을 기반으로 적응형 시각적 특징 큐 융합을 수행합니다. 작업별 라우팅 네트워크는 이러한 어댑터의 혼합을 조정하여 다양한 소스에 대한 작업별 융합 신호를 생성하여 새로운 TC-MoA(작업 맞춤형 하이브리드 어댑터) 아키텍처를 형성합니다. 또한 융합 신호를 제한하기 위해 상호 정보 정규화를 설계하여 다양한 소스에 대한 보완성을 보장합니다. 특히, 융합 단서는 작업 편향과 양식 지배력 강도에 상당한 차이가 있었습니다. 그림 1에서 볼 수 있듯이 MFF 큐는 VIF 및 MEF보다 더 큰 색상 차이를 가지며, 이는 특징 선택이 지배적 모드의 강도 바이어스에서 더 양극성이라는 것을 나타냅니다. 우리 모델은 단일 모델에서 서로 다른 융합 작업 간의 융합 강도 편향을 효과적으로 인식하므로 더 넓은 범위의 융합 작업과 호환됩니다.

다양한 모드, 다중 노출, 다중 초점 융합을 포함한 일반적인 이미지 융합에서 당사의 우수성은 광범위한 실험을 통해 검증되었습니다. 더 중요한 것은 우리의 TC-MoA가 알려지지 않은 융합 작업에 대해서도 창의적인 제어 가능성과 일반화를 보여줌으로써 더 넓은 범위의 융합 시나리오에서 우리의 잠재력을 완전히 입증한다는 것입니다.

주요 기여

적응형 다중 소스 이미지 융합을 위한 새로운 작업 맞춤형 하이브리드 어댑터(TC-MoA)를 제공하는 통합 일반 이미지 융합 모델을 제안합니다(동적 집계의 이점을 활용함). 해당 스키마의 유효한 정보).
  • 우리는 모델이 다양한 소스 이미지의 주요 강도를 더 정확하게 식별할 수 있도록 하는 어댑터에 대한 상호 정보 정규화 방법을 제안합니다.
  • 우리가 아는 한, MoE 기반의 유연한 어댑터를 최초로 제안합니다. 학습 가능한 매개변수의 2.8%만 추가함으로써 우리 모델은 많은 융합 작업을 처리할 수 있습니다. 광범위한 실험은 상당한 제어 가능성과 일반화를 보여주면서 경쟁 방법의 장점을 보여줍니다.

핵심 방법

그림 2에 표시된 것처럼 한 쌍의 소스 이미지CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务가 주어지면 네트워크는 서로 다른 소스의 보완 정보를 통합하여 융합된 이미지CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务를 얻습니다. 소스 이미지를 ViT 네트워크에 입력하고 패치 인코딩 레이어를 통해 소스 이미지의 토큰을 얻습니다. ViT는 특징 추출을 위한 인코더와 영상 재구성을 위한 디코더로 구성되며, 둘 다 Transformer 블록으로 구성됩니다.

인코더와 디코더의 CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务Transformer 블록마다 하나의 TC-MoA를 삽입합니다. 네트워크는 이러한 TC-MoA를 통해 융합 결과를 점진적으로 조절합니다. 각 TC-MoA는 작업별 라우터 뱅크CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, 작업 공유 어댑터 뱅크CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 및 힌트 융합 레이어 F로 구성됩니다. TC-MoA는 큐 생성과 큐 기반 융합이라는 두 가지 주요 단계로 구성됩니다. 표현의 편의를 위해 VIF를 예로 들어 입력이 VIF 데이터 세트에서 온다고 가정하고 G를 사용하여 CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务을 나타냅니다. O 그림 2 TC-MOA의 전체 아키텍처

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

생성 알림
. 첫째, 후속 처리를 위해 다중 소스 기능을 얻습니다. j번째 TC-MoA 이전의 네트워크 구조를 로 정의하고, 추출된 큐 생성 특징을
로 정의합니다. 다중 소스 토큰 쌍의 기능 표현으로
을 연결합니다. 이를 통해 다양한 소스의 토큰이 후속 네트워크 내에서 정보를 교환할 수 있습니다. 그러나 고차원 결합 특징을 직접 계산하면 불필요한 매개변수가 많이 발생합니다. 따라서
을 사용하여 다음과 같이 특징 차원 축소를 수행하고 처리된 다중 소스 특징
을 얻습니다. CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | MoE를 기반으로 하는 일반 이미지 융합 모델로, 여러 작업을 완료하기 위해 2.8% 매개변수를 추가합니다. 그런 다음 Φ가 속한 작업에 따라 라우터 뱅크에서 작업별 라우터를 선택합니다. 라우팅 체계를 사용자 정의하려면, 즉 각 소스 토큰 쌍에 대해 어댑터 뱅크의 어떤 어댑터를 입력해야 하는지를 지정해야 합니다. CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

마지막으로 퓨전 힌트를 얻기 위해 어댑터 출력의 가중치 합을 수행합니다. 각 라우터에는 적절한 어댑터 조합을 사용자 정의하기 위한 작업 기본 설정이 있으며, 이는 어댑터 조합에서 다음과 같이 계산된 힌트를 생성합니다:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Tip-Driven Fusion. 작업 맞춤형 단서는 상호 정보 정규화(MIR)의 적용을 받으며, 이는 다양한 소스에 대한 보완성을 보장합니다. 따라서 단서는 각 소스에서 중요한 정보의 비율을 추정하는 역할을 합니다. 다중 소스 기능과 단서의 내적을 통해 중복 정보를 제거하면서 보완적인 정보를 유지합니다. 그런 다음 특징 표현에 소스 종속 편향(예: 가시광선 또는 적외선 이미지)이 포함되어야 한다는 점을 고려하여 각 소스에 대해 입력 독립적인 학습 가능한 매개변수(예: 소스 인코딩 )를 도입합니다. 힌트와 소스 편향으로 특징을 수정한 후 정제된 소스 특징CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务을 얻은 다음 융합 레이어 F를 통해 융합 특징을 얻습니다. 프로세스는 다음과 같습니다.

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

마지막으로 융합 특징을 얻습니다. 작업 맞춤형 힌트. 모델이 중요한 정보를 단계별로 추출하도록 장려하기 위해 다음 Transformer 블록에 출력되는 특성을 다음과 같이 정의합니다(CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务는 하이퍼 매개변수):

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Mutual Information Regular. 다중 소스 기능에서 중복된 정보를 삭제하면서 모델이 보완적인 정보를 동적으로 유지하도록 하기 위해 프롬프트에 정규화 제약 조건을 적용합니다. 특징 표현이 선형적으로 변경된다고 가정하고 MIR을 다음과 같이 정의합니다.

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

실험 결과

정성적 및 정량적 실험. 그림 3-5 및 표 1-3에서 볼 수 있듯이 세 가지 융합 작업에 대한 정성적, 정량적 비교를 통해 우리 방법의 성능이 이전의 일반적인 융합 방법을 능가하는 것으로 나타났습니다. 작업별 방법과 비교하여 우리의 방법은 모든 작업에서 최첨단 성능을 달성하고 일부 작업(VIF)에서도 앞선다. 제안한 방법의 우수성이 입증되었다.务 그림 3 VIF 작업 LLVIP 데이터 세트 정성적 비교 실험

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

그림 4 MEF 작업 MEFB 데이터 세트 정성 비교 실험

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

5 MFF 작업 데이터 설정

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                                                         표 1 VIF 작업 LLVIP 데이터 세트에 대한 정량적 비교 실험务 표 2 MEF task LLVIP 데이터 세트 정량적 비교 실험

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 Table 3 MFF task LLVIP 데이터 세트 그림 6의 task의 LLVIP 데이터 세트

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务의 정량 비교 실험 알 수 없는 작업에 대한 제어 가능성 및 일반화


제어 가능성 및 일반화
.
그림 6에서 볼 수 있듯이 융합 프롬프트의 하이퍼파라미터 α와 β를 제어함으로써 원본 이미지의 보완 정보(영역 수준)에 대한 모델의 특징 선택 강도와 융합된 이미지와 융합된 이미지 간의 유사성을 각각 제어할 수 있습니다. 특정 소스 이미지(이미지 레벨). 선형 변환을 통해 단서를 융합하여 궁극적으로 맞춤형 융합 이미지를 생성할 수 있습니다. 다중 노출 융합과 같은 알려진 작업의 경우 인간의 인식에 가장 잘 맞는 맞춤형 융합 결과를 얻을 수 있습니다. 알려지지 않은 작업의 경우 가장 적절한 융합 매개변수를 조정하고 모델을 알려지지 않은 작업으로 일반화할 수 있습니다.

위 내용은 CVPR 2024 | MoE를 기반으로 하는 일반 이미지 융합 모델로, 여러 작업을 완료하기 위해 2.8% 매개변수를 추가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek을 설치하는 방법 DeepSeek을 설치하는 방법 Feb 19, 2025 pm 05:48 PM

Docker 컨테이너를 사용하여 사전 컴파일 된 패키지 (Windows 사용자의 경우)를 사용하여 소스 (숙련 된 개발자)를 컴파일하는 것을 포함하여 DeepSeek를 설치하는 방법에는 여러 가지가 있습니다. 공식 문서는 신중하게 문서를 작성하고 불필요한 문제를 피하기 위해 완전히 준비합니다.

깊은 사용을위한 FAQ 요약 깊은 사용을위한 FAQ 요약 Feb 19, 2025 pm 03:45 PM

Deepseekai 도구 가이드 및 FAQ Deepseek은 강력한 AI 지능형 도구입니다. FAQ : 다른 액세스 방법의 차이 : 웹 버전, 앱 버전 및 API 통화간에 기능에는 차이가 없으며 앱은 웹 버전의 래퍼 일뿐입니다. 로컬 배치는 증류 모델을 사용하는데,이 모델은 DeepSeek-R1의 정식 버전보다 약간 열등하지만 32 비트 모델은 이론적으로 90% 정식 버전 기능을 갖습니다. 선술집이란 무엇입니까? Sillytavern은 API 또는 Ollama를 통해 AI 모델을 호출 해야하는 프론트 엔드 인터페이스입니다. 중단 한도는 무엇입니까?

AI 도구는 무엇입니까? AI 도구는 무엇입니까? Nov 29, 2024 am 11:11 AM

AI 도구에는 Doubao, ChatGPT, Gemini, BlenderBot 등이 포함됩니다.

Grayscale 암호화 신탁 기금은 무엇입니까? Grayscale 암호화 신탁 기금은 무엇입니까? Mar 05, 2025 pm 12:33 PM

Grayscale Investment : Grayscale Investment Company는 기관 및 투자자에게 디지털 통화 투자 서비스를 제공합니다. 이 회사는 몇 가지 암호화 신탁을 출시했으며, 이는 시장의 광범위한 시장의 관심을 끌었지만, 이러한 자금이 토큰 가격에 미치는 영향은 크게 다릅니다. 이 기사는 Grayscale의 주요 Crypto Trust Funds 중 일부를 자세히 소개합니다. Grayscale Major Crypto Trust Fund는 Glance Grayscale Investment (2013 년 DigitalCurrencygroup이 설립 한)에서 제공되는 다양한 암호화 자산 신탁 기금을 관리하여 기관 투자자와 고격한 개인에게 준수 투자 채널을 제공합니다. 주요 자금에는 다음이 포함됩니다 : Zcash (Zec), Sol,

최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? 최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? Mar 04, 2025 pm 08:03 PM

최고 시장 제조업체 인 Castle Securities의 Bitcoin Market Maker에 진입하는 것은 Bitcoin 시장의 성숙도의 상징이며, 전통적인 금융 세력이 미래의 자산 가격 권력을 위해 경쟁하는 핵심 단계입니다. Bloomberg에 따르면 Citadel Securities는 2 월 25 일에 Cryptocurrencies의 유동성 제공 업체가 되고자합니다. 이 회사는 Coinbaseglobal, Binanceholdings 및 Crypto.com이 운영하는 거래소를 포함하여 다양한 거래소에서 시장 제조업체 목록에 가입하는 것을 목표로하고 있다고이 문제에 익숙한 사람들은 말했다. Exchange에 의해 승인되면이 회사는 처음에 미국 이외의 시장 제조업체 팀을 설립 할 계획이었습니다. 이 움직임은 징후 일뿐입니다

Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Mar 04, 2025 pm 07:00 PM

ELIZAOSV2 : AI의 새로운 경제를 이끌고 AI는 보조 도구에서 독립적 인 엔티티로 진화하여 AI가 자금을 관리하고 Web3 비즈니스를 운영 할 수 있습니다. 이 기사는 Elizaosv2의 주요 혁신과 그것이 AI 중심의 미래 경제를 형성하는 방법으로 뛰어들 것입니다. AI Automation : 독립적으로 Elizaos를 운영하는 것은 원래 Web3 자동화에 중점을 둔 AI 프레임 워크였습니다. V1 버전을 사용하면 AI가 스마트 계약 및 블록 체인 데이터와 상호 작용할 수있는 반면 V2 버전은 상당한 성능 향상을 달성합니다. AI는 간단한 지침을 실행하는 대신 워크 플로를 독립적으로 관리하고 비즈니스를 운영하며 재무 전략을 개발할 수 있습니다. 아키텍처 업그레이드 : 향상 a

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 Mar 05, 2025 pm 02:42 PM

주간 관찰 : 비트 코인을 비축하는 비즈니스 - 양조 변화는 종종 주간 메모에서 간과 된 시장 동향을 지적합니다. Microstrategy의 움직임은 뚜렷한 예입니다. 많은 사람들이 "Microstrategy와 Michaelsaylor는 이미 잘 알려져 있습니다. 이것은 무엇에주의를 기울일 것인가?" 이보기는 일방적입니다. 최근 몇 달 동안 비트 코인을 예비 자산으로 채택한 것에 대한 심층적 인 연구에 따르면 이것은 고립 된 사례가 아니라 가장 큰 추세임을 보여줍니다. 나는 향후 12-18 개월 동안 수백 개의 회사가 소송을 따르고 대량의 비트 코인을 구매할 것이라고 예측합니다.

See all articles