ホームページ テクノロジー周辺機器 AI Stable Diffusion は JPEG などのアルゴリズムを上回り、鮮明さを維持しながら画像圧縮を改善できるでしょうか?

Stable Diffusion は JPEG などのアルゴリズムを上回り、鮮明さを維持しながら画像圧縮を改善できるでしょうか?

Apr 27, 2023 am 08:28 AM
アルゴリズム 画像

テキストベース画像生成モデルは非常に人気があり、拡散モデルだけでなく、オープンソースの安定拡散モデルも人気です。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

最近、スイスのソフトウェア エンジニア、Matthias Bühlmann は、安定拡散が画像の生成だけに使用できるわけではないことを偶然発見しました。 #ビットマップ画像を圧縮します。JPEG や WebP よりもさらに高い圧縮率を実現します。

たとえば、ラマの写真、元の画像は 768KB ですが、JPEG を使用して 5.66KB に圧縮され、安定拡散によりさらに 4.98KB に圧縮すると、より多くの高解像度の詳細を保持でき、より少ない圧縮アーティファクトが得られます。これは、肉眼で見ても他の圧縮アルゴリズムよりも明らかに優れています。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

ただし、この圧縮方法には欠点もあります。つまり、

は顔画像やテキスト画像の圧縮には適していません。場合によっては、次に、いくつかのオリジナル画像が コンテンツなしで生成されることもあります

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法オートエンコーダーを再トレーニングする

でも安定拡散と同様の圧縮効果を達成できますが、安定拡散を使用するのが主な圧縮効果の 1 つです。利点は、誰か

がすでに何百万もの資金 を投資して圧縮モデルのトレーニングを支援していることです。それなら、なぜ お金をかけて 圧縮モデルを再度トレーニングするのでしょうか? 安定拡散による画像の圧縮方法

拡散モデルは生成モデルの優位性に挑戦しており、対応するオープンソースの安定拡散モデルも芸術的革命を引き起こしています機械学習コミュニティで。

安定した拡散は、3 つの学習済みニューラル ネットワーク、つまり Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法変分オートエンコーダー (VAE)

を直列に接続することによって得られます。

U-Net モデル テキスト エンコーダー

変分オートエンコーダは、画像空間内の画像をエンコードおよびデコードして、Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法 潜在空間 ## 内の画像の表現ベクトルを取得します。

# 低解像度 (64x64)

高精度 (4x32 ビット) ソース画像 (512x512 の 3x8 または 4x8 ビット) のベクトルで表されます。 画像を潜在空間にエンコードする VAE のトレーニング プロセスは、主に自己教師あり学習に依存しています。つまり、入力と出力は両方ともソース画像であるため、モデルがさらにトレーニングされると、異なる値になります。モデルのバージョンによっては、潜在空間表現が異なって見える場合があります。

Stable Diffusion v1.4 を使用して潜在空間表現を 4 チャネル カラー イメージに再マップして解釈すると、下の中央のイメージのようになります。ソース イメージ キーの

機能はまだ表示されます

VAE 往復エンコードは一度だけロスレスではないことに注意してください。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

たとえば、デコード後、青いテープ上の

ANNA 名 はソース画像ほど鮮明ではなく、可読性が大幅に低下します。

Stable Diffusion v1.4 の変分オートエンコーダは、 小さなテキストや顔画像の表現があまり得意ではありません、私はそう思いませんv1.5で改善されるかどうかはわかりません。

安定拡散の主な圧縮アルゴリズムは、この画像の潜在空間表現を使用して、短いテキストの説明から新しい画像を生成することです。

潜在空間によって表されるランダム ノイズから開始し、完全にトレーニングされた U-Net を使用して潜在空間画像からノイズを繰り返し除去し、より単純な表現でモデルを出力します。それはこのノイズの中にあると信じています 「見る」という予測は、私たちが雲を見るときに、不規則なグラフィックスから頭の中に形や顔を復元するのと少し似ています。

安定拡散を使用して画像を生成する場合、この反復的なノイズ除去ステップは 3 番目のコンポーネントであるテキスト エンコーダーによってガイドされ、テキスト エンコーダーによって U-Net にそれに関する情報が提供されます。騒音の中で見ること。

ただし、圧縮タスクの場合、 はテキスト エンコーダ を必要としないため、実験プロセスでは、伝えるために使用される 空の文字列 エンコーディングのみが作成されました。 U-Net は、画像再構成プロセス中に ガイドなしノイズ除去 を実行します。

Stable Diffusion を画像圧縮コーデックとして使用するには、アルゴリズムが VAE によって生成された潜在表現を効果的に圧縮する必要があります。

潜在表現をダウンサンプリングしたり、既存の非可逆画像圧縮方法を直接使用したりすると、再構成された画像の品質が大幅に低下することが実験でわかります。

しかし、著者は、VAE デコードが潜在表現の量子化に非常に効果的であることを発見しました。

浮動小数点から 8 ビット符号なし整数へのポテンシャルのスケーリング、クランプ、および再マッピングでは、目に見える小さな再構成エラーのみが生成されます。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

#8 ビット潜在表現を量子化することにより、画像によって表現されるデータ サイズは 64*64*4*8bit=16kB になります。これは非圧縮よりもはるかに小さいです。ソース画像は 512*512*3*8bit=768kB

潜在表現のビット数が 8 ビット未満の場合、生成されません。より良い結果が得られます。

画像に対してさらに パレタイズ ディザリング を実行すると、量子化効果が再び向上します。

256*4*8 ビット ベクトルとフロイド スタインバーグ ディザリングの潜在表現を使用してパレット表現を作成し、データ サイズをさらに 64*64*8 256*4 *8 ビットに圧縮しました=5kB

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

潜在空間パレットのディザリングによりノイズが発生し、デコード結果が歪みます。ただし、安定拡散は潜在ノイズの除去に基づいているため、U-Net を使用してジッターによって引き起こされるノイズを除去できます。

4 回の反復後の再構成結果は、視覚的には量子化されていないバージョンに非常に近くなります。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

データ量が大幅に削減されるため (ソース画像は圧縮画像の 155 倍)、効果は非常に優れていますが、また、一部のアーティファクト (元の画像には存在しないハートのパターンなど) も導入されます。

興味深いことに、この圧縮スキームでは、画質よりも画像コンテンツに大きな影響を与えるアーティファクトが発生し、この方法で圧縮された画像には、この種の圧縮アーティファクトが含まれる可能性があります。

著者は、zlib を使用してパレットとインデックスの可逆圧縮を実行しました。テスト サンプルでは、​​ほとんどの圧縮結果は 5kb 未満でした。 ただし、この圧縮方法にはまだ最適化の余地があります。

この圧縮コーデックを評価するために、作成者は、インターネット 上にある標準的なテスト画像を使用しませんでした。なぜなら、インターネット上の画像は、安定拡散濃度によってトレーニングされた画像が発生しており、そのような画像を圧縮すると、コントラストが不当に有利になる可能性があります。

比較をできるだけ公平にするために、作成者は Python 画像ライブラリの最高品質のエンコーダ設定を使用し、さらに mozjpeg を使用して圧縮 JPG データのロスレス データ圧縮を追加しました。図書館。

Stable Diffusion の結果は、主観的には JPG や WebP 圧縮画像よりもはるかに優れているように見えますが、PSNR や SSIM などの標準測定の観点からは大幅に優れているわけではありませんが、悪くなっているわけではないことに注意してください。

導入されたアーティファクトの種類は、画質に影響を与えるよりも画像コンテンツに影響を与えるため、それほど明白ではありません。

この圧縮方法も少し危険です。再構成された特徴の品質は高くなりますが、コンテンツはたとえ非常に鮮明に見えたとしても、圧縮アーティファクトの影響を受ける可能性があります。

たとえば、テスト画像では、コーデックとしての Stable Diffusion が画像の品質を維持するのにはるかに優れていますが、カメラの粒子さえも保存されます (従来の圧縮アルゴリズムのほとんどは達成に苦労しています)、しかしそのコンテンツは依然として圧縮アーティファクトの影響を受けており、建物の形状などの細かい機能が変化する可能性があります。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

JPG 圧縮画像では、安定拡散圧縮画像よりも多くの真の値を特定することは確かに不可能ですが、安定拡散圧縮結果 JPG や WebP の圧縮アーティファクトは見つけやすいため、高いビジュアル品質は欺瞞的である可能性があります。 実験を再現したい場合は、作者が

Colab

でコードをオープンソース化しています。

Stable Diffsuion还能用来压缩图像?压缩率更高,清晰度超越JPEG等算法

コードリンク: https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing

最後に、著者は、この記事で設計された実験はまだ非常に単純ですが、その効果は依然として驚くべきものであると述べました。未来### 。

以上がStable Diffusion は JPEG などのアルゴリズムを上回り、鮮明さを維持しながら画像圧縮を改善できるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 Mar 26, 2024 pm 12:41 PM

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている。道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる。下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェア コストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

C++sort 関数の基礎となる原則とアルゴリズムの選択を調べる C++sort 関数の基礎となる原則とアルゴリズムの選択を調べる Apr 02, 2024 pm 05:36 PM

C++sort 関数の最下層はマージ ソートを使用し、その複雑さは O(nlogn) で、クイック ソート、ヒープ ソート、安定したソートなど、さまざまなソート アルゴリズムの選択肢を提供します。

人工知能は犯罪を予測できるのか? CrimeGPT の機能を調べる 人工知能は犯罪を予測できるのか? CrimeGPT の機能を調べる Mar 22, 2024 pm 10:10 PM

人工知能 (AI) と法執行機関の融合により、犯罪の予防と検出の新たな可能性が開かれます。人工知能の予測機能は、犯罪行為を予測するためにCrimeGPT (犯罪予測技術) などのシステムで広く使用されています。この記事では、犯罪予測における人工知能の可能性、その現在の応用、人工知能が直面する課題、およびこの技術の倫理的影響について考察します。人工知能と犯罪予測: 基本 CrimeGPT は、機械学習アルゴリズムを使用して大規模なデータセットを分析し、犯罪がいつどこで発生する可能性があるかを予測できるパターンを特定します。これらのデータセットには、過去の犯罪統計、人口統計情報、経済指標、気象パターンなどが含まれます。人間のアナリストが見逃す可能性のある傾向を特定することで、人工知能は法執行機関に力を与えることができます

iOS 17を使用してiPhoneで写真を編集する方法 iOS 17を使用してiPhoneで写真を編集する方法 Nov 30, 2023 pm 11:39 PM

モバイル写真は、私たちが人生の瞬間を捉えて共有する方法を根本的に変えました。スマートフォン、特に iPhone の出現がこの変化に重要な役割を果たしました。高度なカメラ技術と使いやすい編集機能で知られる iPhone は、アマチュア写真家にとっても経験豊富な写真家にとっても同様に第一の選択肢となっています。 iOS 17 のリリースは、この取り組みにおける重要なマイルストーンとなります。 Apple の最新アップデートでは、写真編集機能の強化セットが提供され、日常のスナップショットを視覚的に魅力的で芸術性の高い画像に変えるためのより強力なツールキットがユーザーに提供されます。この技術開発は写真撮影プロセスを簡素化するだけでなく、クリエイティブな表現の新たな道を切り開き、ユーザーが自分の写真にプロのタッチを簡単に注入できるようになります。

改良された検出アルゴリズム: 高解像度の光学式リモートセンシング画像でのターゲット検出用 改良された検出アルゴリズム: 高解像度の光学式リモートセンシング画像でのターゲット検出用 Jun 06, 2024 pm 12:33 PM

01 今後の概要 現時点では、検出効率と検出結果の適切なバランスを実現することが困難です。我々は、光学リモートセンシング画像におけるターゲット検出ネットワークの効果を向上させるために、多層特徴ピラミッド、マルチ検出ヘッド戦略、およびハイブリッドアテンションモジュールを使用して、高解像度光学リモートセンシング画像におけるターゲット検出のための強化されたYOLOv5アルゴリズムを開発しました。 SIMD データセットによると、新しいアルゴリズムの mAP は YOLOv5 より 2.2%、YOLOX より 8.48% 優れており、検出結果と速度のバランスがより優れています。 02 背景と動機 リモート センシング技術の急速な発展に伴い、航空機、自動車、建物など、地表上の多くの物体を記述するために高解像度の光学式リモート センシング画像が使用されています。リモートセンシング画像の判読における物体検出

58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 May 09, 2024 am 09:01 AM

1. 58 Portraits プラットフォーム構築の背景 まず、58 Portraits プラットフォーム構築の背景についてお話ししたいと思います。 1. 従来のプロファイリング プラットフォームの従来の考え方ではもはや十分ではありません。ユーザー プロファイリング プラットフォームを構築するには、複数のビジネス分野からのデータを統合して、ユーザーの行動や関心を理解するためのデータ マイニングも必要です。最後に、ユーザー プロファイル データを効率的に保存、クエリ、共有し、プロファイル サービスを提供するためのデータ プラットフォーム機能も必要です。自社構築のビジネス プロファイリング プラットフォームとミドルオフィス プロファイリング プラットフォームの主な違いは、自社構築のプロファイリング プラットフォームは単一のビジネス ラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィス プラットフォームは複数のビジネス ラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。 2.58 中間プラットフォームのポートレート構築の背景のユーザーのポートレート 58

不調和で反動的なイメージを作り出すにはどうすればよいでしょうか? 不調和で反動的なイメージを作り出すにはどうすればよいでしょうか? Feb 19, 2024 pm 09:18 PM

Discordでは、ユーザーが作成者でなくても使用できるリアクティブ画像を作成できます。この記事では、Discordでこれらのリアクション画像を作成して使用する方法を説明します。このガイドは、Discord ゲームに創造性を加えたい人を対象としています。パッシブイメージとは何ですか?リアクティブ イメージとは、オーディオ信号にリアルタイムで応答できるイメージで、音声入力があると、イメージに対応するダイナミックな効果が得られます。このテクノロジーは、会議中の音声をリアルタイムで視覚効果に変換したり、仮想現実体験を強化したりするなど、さまざまなシナリオで使用できます。これらの反応画像はさまざまな方法で作成してシステムに追加することができ、より豊かで没入型のインタラクティブなエクスペリエンスをユーザーに提供します。不調和なリアクティブ イメージを作成する方法 不調和なリアクティブ イメージを作成する 2 つの方法を次に示します。作って追加する

See all articles