> 기술 주변기기 > 일체 포함 > 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

WBOY
풀어 주다: 2024-06-06 17:28:46
원래의
590명이 탐색했습니다.
물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자는 VMamba의 원래 팀이며, 그 중 첫 번째 저자인 Wang Zhaozhi는 2022년에 University of 중국과학원 및 펑청연구소 박사과정 학생이자 공동저자인 Liu Yue는 2021년 중국과학원대학교 박사과정 후보자입니다. 주요 연구 방향은 시각적 모델 디자인과 자기 지도 학습입니다.

Transformer의 Attention 메커니즘을 돌파하는 방법은 무엇인가요? 중국과학원대학교와 펑청국립연구소는 열전도를 기반으로 한 시각적 표현 모델 vHeat을 제안했습니다. 이미지 특징 블록을 열원으로 취급하고, 열전도율을 예측하고 물리적 열전도원리를 기반으로 이미지 특징을 추출합니다. Attention 메커니즘을 기반으로 하는 시각적 모델과 비교하여 vHeat는 계산 복잡성(1.5승), 전역 수용 필드 및 물리적 해석 가능성을 고려합니다.

고해상도 이미지 입력에 vHeat-base+%E6%A8%A1%E5%9E%8B를 ​​사용하는 경우 put, GPU 메모리 사용량 및 플롭은 각각 Swin-base+%E6%A8%A1%E5%9E입니다. .3번, %8B의 1/4, 3/4. 이미지 분류, 대상 감지, 의미/인스턴스 분할 등 기본적인 다운스트림 작업에서 고급 성능을 달성했습니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

  • 논문 주소: https://arxiv.org/pdf/2405.16555

  • 코드 주소: https://github.com/MzeroMiko/vHeat

  • 논문 제목: vHeat: Building Vision 열 전도에 따른 모델

개요

가장 주류인 두 가지 기본 시각적 모델은 CNN과 ViT(Visual Transformer)입니다. 그러나 CNN의 성능은 로컬 수용 필드와 고정 컨볼루션 커널 연산자에 의해 제한됩니다. ViT는 전역 종속성을 나타내는 기능이 있지만 2차 노름 계산이 복잡해집니다. 우리는 CNN과 ViT의 컨볼루션 연산자와 셀프 어텐션 연산자가 각각 정보 전송의 한 형태인 피처 내의 픽셀 전송 프로세스라고 믿습니다. 이는 또한 물리적 필드의 열 전도를 연상시킵니다. 이에 열전도 방정식을 기반으로 시각적 의미의 공간적 전파를 물리적 열전도와 연결하고, 계산 복잡도가 1.5배인 시각적 전도 연산자(Heat Conduction Operator, HCO)를 제안한 후 저전력 시각적 전도를 설계했습니다. 연산자(HCO) 복잡성, 전역 수용 필드 및 물리적 해석 가능성을 위한 시각적 표현 모델 vHeat. HCO와 self-attention의 계산 형태와 복잡도 비교는 아래 그림과 같습니다. 실험을 통해 vHeat가 다양한 시각적 작업에서 우수한 성능을 발휘한다는 것이 입증되었습니다. 예를 들어, vHeat-T는 ImageNet-1K에서 82.2%의 분류 정확도를 달성했는데, 이는 Swin-T보다 0.9%, ViM-S보다 1.7% 더 높습니다. 성능 외에도 vHeat는 높은 추론 속도, 낮은 GPU 메모리 사용량 및 낮은 FLOP라는 장점도 있습니다. 입력 이미지 해상도가 높을 때 기본 규모 vHeat 모델은 Swin에 비해 처리량은 1/3 더 많고, GPU 메모리 사용량은 1/4, FLOP는 3/4에 불과합니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

방법 소개

를 사용하여 시간 t에서 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다. 지점의 온도를 나타냅니다. 물리적 열전도 방정식은 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.이며, 여기서 k>0은 열 확산율을 나타냅니다. 시간 t=0의 초기 조건 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.이 주어지면 푸리에 변환을 사용하여 열전도 방정식을 풀 수 있으며 이는 다음과 같이 표현됩니다. 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

여기서 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.는 각각 푸리에 변환과 역푸리에 변환을 나타내고, 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.는 주파수 영역 공간 좌표를 나타냅니다.

HCO를 사용하여 시각적 의미론에서 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.를 다중 채널 기능 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.으로 확장합니다. 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.를 입력으로 간주하고 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.를 출력으로 간주합니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

여기서 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.는 각각 2차원 이산 코사인 변환과 역변환을 나타냅니다. HCO의 구조는 아래 그림 (a)에 나와 있습니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

또한, 우리는 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.의 출력이 주파수 영역에 있다는 점을 고려하여 다양한 이미지 내용이 서로 다른 열 확산율에 대응해야 한다고 생각하며, 주파수 값 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.에 따라 열 확산율을 결정합니다. 주파수 영역의 서로 다른 위치는 서로 다른 주파수 값을 나타내기 때문에 ViT의 절대 위치 인코딩 구현 및 기능과 유사한 주파수 값 정보를 표현하기 위해 FVE(Frequency Value Embedding)를 제안하고 FVE를 사용하여 열 확산을 제어합니다. 아래 그림과 같이 HCO가 불균일하고 적응적인 전도를 수행할 수 있도록 속도 k를 예측합니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

vHeat는 아래 그림과 같이 다중 레벨 구조를 사용하여 구현됩니다. 전체 프레임워크는 주류 시각적 모델과 유사하며 HCO 레이어는 그림 2(b)에 표시됩니다.

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

실험 결과

ImageNet 분류

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

실험 결과를 비교하면 비슷한 매개변수와 FLOP에서

  1. vHeat-T가 82.2%의 성능을 달성하여 DeiT-S를 2.4%, Vim-S를 2.4% 초과한 것을 쉽게 알 수 있습니다. 1.7%, Swin-T는 0.9%에 도달합니다.
  2. vHeat-S는 Swin-S를 0.6%, ConvNeXt-S를 0.5% 능가하는 83.6%의 성능을 달성했습니다.
  3. vHeat-B는 83.9%의 성능을 달성하여 DeiT-B를 2.1%, Swin-B를 0.4% 능가했습니다.

동시에 vHeat의 O(N^1.5) 낮은 복잡성과 병렬 계산으로 인해 추론 처리량은 vHeat-T의 추론 처리량과 같이 ViT 및 SSM 모델에 비해 분명한 이점을 갖습니다. 1514 img/s입니다. 이는 Swin-T보다 22% 더 높고, Vim-S보다 87% 더 높으며, ConvNeXt-T보다 26% 더 높으며 성능도 더 좋습니다.

다운스트림 작업

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

COCO 데이터 세트에서 vHeat는 성능 이점도 있습니다. 12 epoch를 미세 조정하는 경우 vHeat-T/S/B는 각각 45.1/46.8/47.7 mAP에 도달하여 이를 초과합니다. 이는 Swin-T/S/B를 2.4/2.0/0.8mAP만큼 초과하고 ConvNeXt-T/S/B를 0.9/1.4/0.7mAP만큼 초과합니다. ADE20K 데이터 세트에서 vHeat-T/S/B는 각각 46.9/49.0/49.6mIoU에 도달했으며 이는 Swin 및 ConvNeXt보다 여전히 더 나은 성능을 나타냅니다. 이러한 결과는 vHeat가 시각적 다운스트림 실험에서 완벽하게 작동하며 주류 기본 시각적 모델을 대체할 수 있는 가능성을 보여줍니다.

분석 실험

유효 수용장

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

vHeat은 시각적 비교를 위한 주류 모델 중 DeiT와 HiViT만이 이 기능을 가지고 있습니다. 그러나 DeiT 및 HiViT의 비용은 제곱 수준 복잡성인 반면 vHeat는 1.5 전력 수준 복잡성이라는 점은 주목할 가치가 있습니다.

계산 비용

물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.

위 그림은 왼쪽에서 오른쪽으로 vHeat-B와 기타 ViT 기반 모델의 추론 처리량/GPU 메모리 사용량/계산 FLOP를 기본 규모로 비교한 것입니다. O(N^1.5)의 계산 복잡성으로 인해 vHeat는 대조 모델보다 더 빠른 추론 속도, 더 낮은 메모리 사용량 및 더 적은 FLOP를 가지며, 이미지 해상도가 더 클수록 이점이 더 커진다는 것을 분명히 알 수 있습니다. 분명한. 입력 이미지가 768*768 해상도일 때 vHeat-B의 추론 처리량은 Swin-B의 약 3배이고, GPU 메모리 사용량은 Swin-B보다 74% 낮으며, FLOP는 Swin-B보다 28% 낮습니다. vHeat 및 ViT 기반 모델의 계산 비용을 비교하면 고해상도 이미지 처리에 탁월한 잠재력이 있음을 알 수 있습니다.

위 내용은 물리적 열 전달에서 영감을 얻은 시각적 표현 모델 vHeat는 주의 메커니즘을 돌파하려고 시도하며 복잡성이 낮고 전역 수용 영역을 모두 갖습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿