Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

王林
풀어 주다: 2023-05-02 09:55:12
앞으로
1451명이 탐색했습니다.

이미지 크기 조정(LR) 작업은 이미지 다운샘플링과 업샘플링 작업을 공동으로 최적화하여 이미지 해상도를 줄이고 복원하여 저장 공간이나 전송 대역폭을 절약하는 데 사용할 수 있습니다. 아틀라스 서비스의 다단계 배포와 같은 실제 응용 분야에서는 다운샘플링을 통해 얻은 저해상도 이미지에 손실 압축이 적용되는 경우가 많으며, 손실 압축으로 인해 기존 알고리즘의 성능이 크게 저하되는 경우가 많습니다.

최근 ByteDance - Volcano Engine Multimedia Laboratory는 처음으로 손실 압축 하에서 이미지 리샘플링 성능을 최적화하려고 시도했으며, 두 가지 관찰을 기반으로 비대칭 가역 리샘플링 프레임워크를 설계하여 압축 방지 방법을 추가로 제안했습니다. 이미지 리샘플링 모델 SAIN. 이 연구에서는 가역적 네트워크 모듈 세트를 리샘플링과 압축 시뮬레이션의 두 부분으로 분리하고, 혼합 가우스 분포를 사용하여 해상도 저하 및 압축 왜곡으로 인한 결합 정보 손실을 모델링하고, 이를 미분 가능한 JPEG 연산자와 결합하여 종단 간 분석을 수행합니다. 훈련을 종료하면 일반적인 압축 알고리즘의 견고성이 크게 향상됩니다.

현재 이미지 리샘플링 연구에서 SOTA 방법은 Invertible Network를 기반으로 하여 전단사 함수(bijective function)를 구축하는데, 그 포지티브 연산이 고해상도(HR) 이미지를 저해상도(LR) 이미지로 변환합니다. 표준 정규 분포를 따르는 일련의 숨겨진 변수. 역 연산은 숨겨진 변수를 무작위로 샘플링하고 업샘플링 복원을 위해 이를 LR 이미지와 결합합니다.

가역적 네트워크의 특성으로 인해 다운샘플링 및 업샘플링 연산자는 높은 수준의 대칭성을 유지하므로 원래 학습된 업샘플링 연산자로 압축된 LR 이미지를 복원하기가 어렵습니다. 본 연구에서는 손실 압축에 대한 강인성을 높이기 위해 비대칭 가역 프레임워크 기반의 압축 저항성 이미지 리샘플링 모델 SAIN(Self-Asymmetric Invertible Network)을 제안합니다.

SAIN 모델의 핵심 혁신은 다음과 같습니다.

  • 이전 방법의 엄격한 대칭으로 인한 성능 저하 문제를 해결하는 비대칭 가역적 이미지 리샘플링 프레임워크를 제안합니다. 가역적 모듈(E- InvBlock)은 다수의 매개변수 및 연산 공유를 전제로 모델 피팅 기능을 강화하고, 압축 전후의 2세트의 LR 이미지를 동시에 모델링하여 모델이 역연산을 통해 압축 복구 및 업샘플링을 수행할 수 있도록 합니다.
  • 학습 가능한 혼합 가우스 분포를 구축하고, 해상도 감소 및 손실 압축으로 인한 결합 정보 손실을 모델링하고, 잠재 변수의 실제 분포와 더 일치하는 재매개변수화 기술을 통해 분포 매개변수를 직접 최적화합니다.

SAIN 모델은 JPEG 및 WebP 압축에서 성능이 검증되었으며 여러 공개 데이터 세트에서의 성능이 SOTA 모델보다 훨씬 앞서 있습니다. 관련 연구는 AAAI 2023 Oral에 선정되었습니다.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

  • 논문 주소: https://arxiv.org/abs/2303.02353
  • 코드 링크: https://github.com/yang-jin-hai/SAIN

비대칭 리샘플링 프레임워크

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

그림 1 듀얼 IRN 모델 다이어그램.

본 연구에서는 압축 방지 성능을 향상시키기 위해 먼저 비대칭 가역적 이미지 리샘플링 프레임워크를 설계하고 기본 체계 Dual-IRN 모델을 제안했습니다. 이 체계의 단점을 심층적으로 분석한 후 추가 최적화가 이루어졌습니다. SAIN 모델이 제안되었다. 위 그림에 표시된 것처럼 Dual-IRN 모델에는 두 개의 분기가 포함되어 있습니다. 여기서 D-IRN과 U-IRN은 각각 HR 이미지와 압축 전/압축 후 LR 이미지 간의 전단을 학습하는 두 세트의 가역 네트워크입니다. .

훈련 단계에서 Dual-IRN 모델은 미분 가능한 JPEG 연산자를 통해 두 가지 사이의 기울기를 전달합니다. 테스트 단계에서 모델은 D-IRN을 사용하여 다운샘플링하여 고품질 LR 이미지를 얻습니다. 실제 환경에서 실제 압축을 수행한 후 모델은 압축 인식 기능이 있는 U-IRN을 사용하여 압축 복구 및 업샘플링을 완료합니다.

이러한 비대칭 프레임워크를 통해 업샘플링 및 다운샘플링 운영자는 엄격한 가역 관계를 피할 수 있습니다. 압축 알고리즘이 업샘플링 및 다운샘플링 프로세스의 대칭을 파괴하여 발생하는 문제를 근본적으로 해결합니다. 대칭 방식은 크게 향상됩니다. 압축 저항 성능.

이후 연구원들은 Dual-IRN 모델에 대한 추가 분석을 수행하여 다음 두 가지 현상을 관찰했습니다.

  • 첫 번째, D-IRN과 U-2 가지 분기의 중간 계층 기능을 측정하는 CKA IRN도 비슷해요. 위 (b)에서 볼 수 있듯이 D-IRN의 마지막 레이어의 출력 특징(즉, 네트워크에 의해 생성된 고품질 LR 이미지)은 U-IRN의 얕은 레이어의 출력 특징과 매우 유사합니다. U-IRN의 얕은 동작은 샘플링 손실 시뮬레이션에 더 가깝고 깊은 동작은 압축 손실 시뮬레이션에 더 가깝습니다.
  • 두 번째, 두 분기 D-IRN과 U-IRN의 중간 계층에 있는 숨겨진 변수의 실제 분포를 계산합니다. 위의 (c)(d)에서 볼 수 있듯이 압축 센싱이 적용되지 않은 D-IRN의 잠재 변수는 전체적으로 단봉 정규 분포 가정을 만족하는 반면, 압축 센싱이 적용된 U-IRN의 잠재 변수는 다중 모달 형태를 나타냅니다. 손실 압축으로 인한 정보 손실의 형태가 더 복잡하다는 것을 나타냅니다.

위의 분석을 바탕으로 연구원들은 모델을 여러 측면에서 최적화했습니다. 결과 SAIN 모델은 네트워크 매개 변수 수를 거의 절반으로 줄였을 뿐만 아니라 성능도 더욱 향상되었습니다.

SAIN 모델 세부정보

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

그림 2 SAIN 모델 다이어그램.

SAIN 모델의 아키텍처는 위 그림에 나와 있으며 다음과 같은 네 가지 주요 개선 사항이 적용되었습니다.

1. 중간 계층 기능의 유사성을 기반으로 가역 네트워크 모듈 세트는 리샘플링과 압축 시뮬레이션의 두 부분으로 분리되어 두 개의 완전한 가역 네트워크 세트를 사용하지 않도록 자체 비대칭 아키텍처를 형성합니다. 테스트 단계에서는 순방향 변환

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

을 사용하여 고품질 LR 이미지를 얻고, 먼저 역변환

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

을 사용하여 압축 복구를 한 다음 역변환

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

을 사용합니다. 업샘플링용.

2. 네트워크 구조. E-InvBlock은 고주파 정보의 도움으로 압축 손실을 복구할 수 있다는 가정을 바탕으로 모듈에 추가 변환을 추가하여 압축 전과 후의 두 세트의 LR 이미지를 공유하면서 효율적으로 모델링할 수 있습니다. 많은 수의 작업.

3. 정보 손실 모델링. 잠재 변수의 실제 분포를 기반으로 학습 가능한 혼합 가우스 분포를 사용하여 다운샘플링 및 손실 압축으로 인한 결합 정보 손실을 모델링하고 재매개변수화 기술을 통해 분포 매개변수를 엔드 투 엔드로 최적화하는 것이 제안됩니다.

4. 목적 함수 . 다중 손실 함수는 네트워크의 가역성을 제한하고 재구성 정확도를 향상시키도록 설계되었습니다. 동시에 실제 압축 방식에 대한 견고성을 향상시키기 위해 실제 압축 작업이 손실 함수에 도입됩니다.

실험 및 효과 평가

평가 데이터 세트는 DIV2K 검증 세트와 Set5, Set14, BSD100, Urban100의 4가지 표준 테스트 세트입니다.

정량적 평가 지표는 다음과 같습니다.

  • PSNR: 피크 신호 ​​대 잡음비, 피크 신호 ​​대 잡음비, 재구성된 이미지와 원본 이미지의 평균 제곱 오차를 반영하며 높을수록 좋습니다.
  • SSIM: 구조적 유사성 이미지 측정 , 재구성된 이미지와 원본 이미지의 차이를 측정합니다. 이미지의 구조적 유사성이 높을수록 좋습니다.

표 1과 그림 3의 비교 실험에서 모든 데이터 세트에 대한 SAIN의 PSNR 및 SSIM 점수는 SOTA의 이미지 리샘플링 모델보다 훨씬 앞서 있습니다. 상대적으로 낮은 QF에서 기존 방법은 일반적으로 심각한 성능 저하를 경험하는 반면 SAIN 모델은 여전히 ​​최적의 성능을 유지합니다.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

표 1 DIV2K 데이터 세트의 다양한 JPEG 압축 품질(QF)에서 재구성 품질(PSNR/SSIM)을 비교하기 위한 비교 실험.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

그림 3 4개의 표준 테스트 세트에서 서로 다른 JPEG QF의 재구성 품질(PSNR)을 비교하는 비교 실험.

그림 4의 시각화 결과에서 SAIN이 복원한 HR 이미지가 더 선명하고 정확하다는 것을 확실히 알 수 있습니다.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

그림 4 JPEG 압축(4배율)에서 다양한 방법의 시각화 결과 비교.

표 2의 절제 실험에서 연구원들은 실제 압축과 결합된 훈련을 위한 여러 다른 후보자도 비교했습니다. 이들 후보는 완전 대칭형 기존 모델(IRN)보다 압축에 더 강하지만 매개변수 수와 정확도 측면에서 여전히 SAIN 모델보다 열등합니다.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

표 2 전체 프레임워크 및 교육 전략에 대한 Ablation 실험.

그림 5의 시각화 결과에서 연구원들은 WebP 압축 왜곡 하에서 다양한 이미지 리샘플링 모델의 재구성 결과를 비교했습니다. SAIN 모델은 WebP 압축 방식에서도 가장 높은 재구성 점수를 보여주며 이미지 세부 정보를 명확하고 정확하게 복원할 수 있어 다양한 압축 방식에 대한

SAIN의 호환성을 입증할 수 있습니다.

Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.

그림 5 WebP 압축(×2 배율) 하에서 다양한 방법의 정성적 및 정량적 비교.

또한 연구에서는 혼합 가우시안 분포, E-InvBlock 및 손실 함수에 대한 절제 실험도 수행하여 이러한 개선이 결과에 긍정적인 기여를 했음을 입증했습니다.

요약 및 전망

화산 엔진 멀티미디어 연구소는 압축 방지 이미지 리샘플링을 위한 비대칭 가역 프레임워크 기반 모델인 SAIN을 제안했습니다. 모델은 리샘플링과 압축 시뮬레이션의 두 부분으로 구성됩니다. 이는 혼합 가우스 분포를 사용하여 종단 간 훈련을 위해 미분 가능한 JPEG 연산자와 결합됩니다. -InvBlock은 모델을 향상시키기 위해 제안되었습니다. 피팅 기능은 일반적인 압축 알고리즘에 대한 견고성을 크게 향상시킵니다.

Volcano Engine Multimedia Laboratory는 ByteDance 산하의 연구팀으로 멀티미디어 분야의 최첨단 기술을 탐구하고 국제 표준화 작업에 참여하는 데 전념하고 있으며 많은 혁신적인 알고리즘과 소프트웨어 및 하드웨어 솔루션이 다음과 같은 제품에 널리 사용되었습니다. Douyin 및 Xigua Video로 멀티미디어 사업을 하고 있으며 Volcano Engine의 기업 고객에게 기술 서비스를 제공합니다. 연구실 설립 이후 많은 논문이 최고의 국제학술대회와 대표저널에 선정되었으며, 여러 국제기술경연대회, 산업혁신상, 최우수논문상 등을 수상하였습니다.

앞으로 연구팀은 손실 압축 하에서 이미지 리샘플링 모델의 성능을 지속적으로 최적화하고 압축 방지 비디오 리샘플링 및 임의 확대 리샘플링과 같은 보다 복잡한 응용 시나리오를 추가로 탐색할 것입니다.

위 내용은 Byte는 JPEG 및 WebP에서 SOTA를 선도하는 압축 방지 성능을 갖춘 비대칭 이미지 리샘플링 모델을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿