기술 주변기기 일체 포함 Stable Diffusion이 JPEG와 같은 알고리즘을 능가하고 선명도를 유지하면서 이미지 압축을 향상시킬 수 있습니까?

Stable Diffusion이 JPEG와 같은 알고리즘을 능가하고 선명도를 유지하면서 이미지 압축을 향상시킬 수 있습니까?

Apr 27, 2023 am 08:28 AM
연산 영상

텍스트 기반 이미지 생성 모델이 인기가 많습니다. 확산 모델뿐만 아니라 오픈 소스 Stable Diffusion 모델도 인기가 있습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

최근 스위스 소프트웨어 엔지니어인 Matthias Bühlmann은 Stable Diffusion이 이미지를 생성하는 데 사용될 수 있을 뿐만 아니라 더 높은 압축률에서도 비트맵 이미지를 압축하는 데에도 사용될 수 있다는 사실을 우연히 발견했습니다. JPEG 및 WebP보다 높습니다.

예를 들어 라마 사진의 경우 원본 이미지는 768KB이고 JPEG를 사용하여 5.66KB로 압축된 반면 Stable Diffusion은 이를 추가로 4.98KB로 압축하여 더 높게 보존할 수 있습니다. 해상도 세부 사항 그리고 압축 아티팩트가 적고, 다른 압축 알고리즘보다 눈에 띄게 우수합니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

이 압축 방법에도 결함이 있습니다. 즉, 얼굴 및 텍스트 이미지를 압축하는 데 적합하지 않습니다. 경우에 따라 내용이 없는 일부 원본 이미지가 생성될 수도 있습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

자동 인코더 재훈련을 통해 Stable Diffusion과 유사한 압축 효과를 얻을 수도 있지만 Stable Diffusion을 사용하는 주요 이점 중 하나는 누군가가 도움을 주기 위해 수백만 달러의 자금을 투자했다는 것입니다. 다른 압축 모델을 훈련하는 데 돈을 쓰시겠습니까? Stable Diffusion이 이미지를 압축하는 방법

확산 모델은 생성 모델의 지배력에 도전하고 있으며, 해당 오픈 소스 Stable Diffusion 모델은 기계 학습 커뮤니티에 예술적 혁명을 일으키고 있습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

안정적인 확산은 3개의 훈련된 신경망, 즉

VAE(Variational Autoencoder), U-Net 모델텍스트 인코더를 연결하여 얻습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

변형 자동 인코더는 이미지 공간의 이미지를 인코딩 및 디코딩하여

낮은 해상도(64x64)더 높은 정밀도로 잠재 공간에 있는 이미지의 표현 벡터 를 얻습니다. (4x32비트) 원본 이미지를 표현하기 위한 벡터(512x512의 3x8 또는 4x8비트) .

VAE는 이미지를 잠재 공간으로 인코딩하는 훈련 과정에서 주로 자기 지도 학습에 의존합니다. 즉, 입력과 출력이 모두 원본 이미지이므로 모델이 추가로 훈련됨에 따라 다양한 버전의 잠재 공간 표현이 가능해집니다. 모델의 모양이 다를 수 있습니다.

Stable Diffusion v1.4의 잠재 공간 표현을 사용하여 4채널 컬러 이미지로 다시 매핑하고 해석한 후

소스 이미지의 주요 기능이 계속 표시되는을 포함하여 아래 중간 이미지처럼 보입니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

VAE는 왕복을 한 번 인코딩하며 무손실이 아닙니다는 점에 유의해야 합니다.

예를 들어, 디코딩 후 파란색 테이프의 ANNA 이름이 원본 이미지만큼 명확하지 않아 가독성이 크게 떨어집니다.

Stable Diffusion v1.4varial autoencoder작은 텍스트와 얼굴 이미지표현하는 데 그다지 능숙하지 않습니다. v1.5에서 개선될지는 모르겠습니다.

Stable Diffusion의 주요 압축 알고리즘은 이미지의 잠재 공간 표현을 사용하여 짧은 텍스트 설명에서 새로운 이미지를 생성하는 것입니다.

잠재 공간으로 표현되는 무작위 노이즈에서 시작하고, 완전히 훈련된 U-Net을 사용하여 잠재 공간 이미지에서 노이즈를 반복적으로 제거하고, 더 간단한 표현을 사용하여 모델이 "본다"고 생각하는 예측을 출력합니다. 이 소음 속에서는 마치 구름을 볼 때의 불규칙한 모양에서 우리 마음속의 모양이나 얼굴을 복원하는 것과 비슷합니다.

Stable Diffusion을 사용하여 이미지를 생성하는 경우 이 반복적인 노이즈 제거 단계는 U-Net에 노이즈 정보에서 무엇을 보려고 해야 하는지에 대한 아이디어를 제공하는 세 번째 구성 요소인 텍스트 인코더에 의해 안내됩니다.

압축 작업의 경우 텍스트 인코더가 필요하지 않으므로 실험 과정에서는 이미지 재구성 과정에서 U-Net이 비유도 디코딩을 수행하도록 지시하기 위해 빈 문자열 인코딩만 만들었습니다. 시끄러워.

Stable Diffusion을 이미지 압축 코덱으로 사용하려면 알고리즘이 VAE에서 생성된 잠재 표현을 효과적으로 압축해야 합니다.

잠재적 표현을 다운샘플링하거나 기존 손실 이미지 압축 방법을 직접 사용하면 재구성된 이미지의 품질이 크게 저하된다는 실험을 통해 확인할 수 있습니다.

그러나 저자는 VAE 디코딩이 잠재 표현의 양자화에 매우 효과적인 것 같다는 것을 발견했습니다.

부동 소수점에서 8비트 부호 없는 정수로 전위를 스케일링, 클램핑 및 다시 매핑하면 눈에 보이는 작은 재구성 오류만 발생합니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

8비트 잠재 표현을 양자화함으로써 이미지가 표현하는 데이터 크기는 이제 64*64*4*8bit=16kB로, 이는 512*512*3*8bit=768kB보다 훨씬 작습니다. 압축되지 않은 소스 이미지

잠재 표현 수가 8비트 미만이면 더 나은 결과를 얻을 수 없습니다.

이미지에 대해 팔레타이징디더링을 추가로 수행하면 양자화 효과가 다시 향상됩니다.

256*4*8 비트 벡터의 잠재 표현과 Floyd-Steinberg 디더링을 사용하여 팔레트 표현을 생성하여 데이터 크기를 64*64*8+256*4*8bit=5kB

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

잠재 공간 팔레트의 지터링으로 인해 노이즈가 발생하여 디코딩 결과가 왜곡됩니다. 하지만 Stable Diffusion은 잠재 잡음 제거를 기반으로 하기 때문에 U-Net을 사용하면 지터로 인한 잡음을 제거할 수 있습니다.

4번의 반복 후 재구성 결과는 시각적으로 양자화되지 않은 버전에 매우 가깝습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

데이터의 양이 대폭 줄어들었음에도(원본 이미지가 압축된 이미지보다 155배 더 큼) 효과는 매우 좋지만 일부 아티팩트도 발생합니다(예: 하트 모양 패턴이 나타나는 경우) 원본 이미지에는 존재하지 않음) 인공물).

흥미롭게도 이 압축 방식으로 인해 발생하는 아티팩트는 이미지 품질보다 이미지 콘텐츠에 더 큰 영향을 미치며, 이런 방식으로 압축된 이미지에는 이러한 유형의 압축 아티팩트가 포함될 수 있습니다.

저자는 또한 zlib를 사용하여 팔레트와 인덱스에 대해 무손실 압축을 수행했습니다. 테스트 샘플에서 대부분의 압축 결과는 5kb 미만이었지만 이 압축 방법은 여전히 ​​최적화할 여지가 더 많습니다.

압축 코덱을 평가하기 위해 저자는 인터넷에서 찾은 표준 테스트 이미지를 사용하지 않았습니다. 왜냐하면 인터넷에 있는 이미지가 Stable Diffusion의 훈련 세트에 등장했을 수도 있고 그러한 이미지를 압축하면 불공정한 비교우위를 초래합니다.

최대한 공정한 비교를 위해 저자는 Python 이미지 라이브러리의 최고 품질 인코더 설정을 사용했으며, mozjpeg 라이브러리를 사용하여 압축된 JPG 데이터에 무손실 데이터 압축을 추가했습니다.

Stable Diffusion의 결과는 주관적으로 JPG 및 WebP 압축 이미지보다 훨씬 좋아 보이지만 PSNR 또는 SSIM과 같은 표준 측정 측면에서는 크게 낫지는 않지만 나쁘지도 않다는 점은 주목할 가치가 있습니다.

단지 소개된 아티팩트 유형이 이미지 품질보다 이미지 콘텐츠에 더 많은 영향을 미치기 때문에 눈에 띄지 않는 것뿐입니다.

이 압축 방법도 약간 위험합니다. 재구성된 특징의 품질은 높지만 내용이 매우 선명해 보이더라도 압축 아티팩트의 영향을 받을 수 있습니다.

예를 들어 하나의 테스트 이미지에서는 코덱으로서의 Stable Diffusion이 이미지 품질을 유지하는 데 훨씬 뛰어나지만 카메라 그레인 텍스처도 보존됩니다(기존 압축 알고리즘으로는 달성하기 가장 어렵습니다) , 그러나 콘텐츠는 여전히 압축 아티팩트의 영향을 받으며 건물 모양과 같은 미세한 기능이 변경될 수 있습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

Stable Diffusion 압축 이미지보다 JPG 압축 이미지에서 더 많은 실제 값을 식별하는 것은 확실히 불가능하지만 Stable Diffusion 압축 결과의 높은 시각적 품질은 기만적일 수 있습니다. WebP의 압축 아티팩트는 식별하기가 더 쉽습니다.

실험을 재현하고 싶다면 작성자가 Colab에 코드를 오픈 소스로 공개했습니다.

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

코드 링크 : https://colab.research.google.com/drive/1ci1vyhufjk5eox9tb0mq4nsqkedrmaah?usp=sharing worly는 기사에서 설계된 실험이 여전히 꽤 좋습니다. 간단하지만 효과는 여전히 놀랍습니다. 아직 앞으로 개선의 여지가 많습니다.

위 내용은 Stable Diffusion이 JPEG와 같은 알고리즘을 능가하고 선명도를 유지하면서 이미지 압축을 향상시킬 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다. CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다. Mar 26, 2024 pm 12:41 PM

위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 C++에서 기계 학습 알고리즘 구현: 일반적인 과제 및 솔루션 Jun 03, 2024 pm 01:25 PM

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

C++sort 함수의 기본 원리와 알고리즘 선택을 살펴보세요. C++sort 함수의 기본 원리와 알고리즘 선택을 살펴보세요. Apr 02, 2024 pm 05:36 PM

C++정렬 함수의 맨 아래 계층은 병합 정렬을 사용하고 복잡도는 O(nlogn)이며 빠른 정렬, 힙 정렬 및 안정 정렬을 포함한 다양한 정렬 알고리즘 선택을 제공합니다.

인공지능이 범죄를 예측할 수 있을까? CrimeGPT의 기능 살펴보기 인공지능이 범죄를 예측할 수 있을까? CrimeGPT의 기능 살펴보기 Mar 22, 2024 pm 10:10 PM

인공지능(AI)과 법 집행의 융합은 범죄 예방 및 탐지의 새로운 가능성을 열어줍니다. 인공지능의 예측 기능은 범죄 행위를 예측하기 위해 CrimeGPT(범죄 예측 기술)와 같은 시스템에서 널리 사용됩니다. 이 기사에서는 범죄 예측에서 인공 지능의 잠재력, 현재 응용 프로그램, 직면한 과제 및 기술의 가능한 윤리적 영향을 탐구합니다. 인공 지능 및 범죄 예측: 기본 CrimeGPT는 기계 학습 알고리즘을 사용하여 대규모 데이터 세트를 분석하고 범죄가 발생할 가능성이 있는 장소와 시기를 예측할 수 있는 패턴을 식별합니다. 이러한 데이터 세트에는 과거 범죄 통계, 인구 통계 정보, 경제 지표, 날씨 패턴 등이 포함됩니다. 인간 분석가가 놓칠 수 있는 추세를 식별함으로써 인공 지능은 법 집행 기관에 권한을 부여할 수 있습니다.

탐지 알고리즘 개선: 고해상도 광학 원격탐사 이미지에서 표적 탐지용 탐지 알고리즘 개선: 고해상도 광학 원격탐사 이미지에서 표적 탐지용 Jun 06, 2024 pm 12:33 PM

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

iOS 17을 사용하여 iPhone에서 사진을 편집하는 방법 iOS 17을 사용하여 iPhone에서 사진을 편집하는 방법 Nov 30, 2023 pm 11:39 PM

모바일 사진은 우리가 삶의 순간을 포착하고 공유하는 방식을 근본적으로 변화시켰습니다. 이러한 변화에는 스마트폰, 특히 아이폰의 등장이 중요한 역할을 했습니다. 고급 카메라 기술과 사용자 친화적인 편집 기능으로 잘 알려진 iPhone은 아마추어와 숙련된 사진작가 모두에게 최고의 선택이 되었습니다. iOS 17의 출시는 이러한 여정에서 중요한 이정표가 됩니다. Apple의 최신 업데이트는 향상된 사진 편집 기능 세트를 제공하여 사용자에게 일상적인 스냅샷을 시각적으로 매력적이고 예술적으로 풍부한 이미지로 바꿀 수 있는 더욱 강력한 도구 키트를 제공합니다. 이러한 기술 발전은 사진 촬영 과정을 단순화할 뿐만 아니라 창의적인 표현을 위한 새로운 길을 열어 사용자가 사진에 전문적인 터치를 쉽게 추가할 수 있게 해줍니다.

58 초상화 플랫폼 구축에 알고리즘 적용 58 초상화 플랫폼 구축에 알고리즘 적용 May 09, 2024 am 09:01 AM

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다! 실시간으로 SOTA를 추가하고 급상승하세요! FastOcc: 더 빠른 추론 및 배포 친화적인 Occ 알고리즘이 출시되었습니다! Mar 14, 2024 pm 11:50 PM

위에 쓴 글 & 저자의 개인적인 이해는 자율주행 시스템에서 인지 작업은 전체 자율주행 시스템의 중요한 구성 요소라는 것입니다. 인지 작업의 주요 목표는 자율주행차가 도로를 주행하는 차량, 길가의 보행자, 주행 중 직면하는 장애물, 도로 위의 교통 표지판 등 주변 환경 요소를 이해하고 인지하여 하류에 도움을 주는 것입니다. 모듈 정확하고 합리적인 결정과 행동을 취하십시오. 자율주행 기능을 갖춘 차량에는 일반적으로 자율주행 차량이 정확하게 인식하고 인식할 수 있도록 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등과 같은 다양한 유형의 정보 수집 센서가 장착됩니다. 주변 환경 요소를 이해하여 자율 주행 중에 자율 차량이 올바른 결정을 내릴 수 있도록 합니다. 머리

See all articles