ホームページ テクノロジー周辺機器 AI Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

May 02, 2023 am 09:55 AM
フレーム モデル

画像再スケーリング (LR) タスクは、画像のダウンサンプリングとアップサンプリングの操作を共同で最適化します。画像の解像度を下げたり復元したりすることで、ストレージ スペースや送信帯域幅を節約するために使用できます。アトラス サービスのマルチレベル配信などの実際のアプリケーションでは、ダウンサンプリングによって取得された低解像度画像が非可逆圧縮されることが多く、非可逆圧縮により既存のアルゴリズムのパフォーマンスが大幅に低下することがよくあります。

最近、ByteDance-Volcano Engine Multimedia Laboratory は、非可逆圧縮下での画像リサンプリング パフォーマンスの最適化を初めて試み、非対称可逆リサンプリング フレームワークを設計しました は、このフレームワークに基づく 2 つの観察に基づいて、圧縮防止画像リサンプリング モデル SAIN をさらに提案しています。この研究では、可逆ネットワーク モジュールのセットをリサンプリングと圧縮シミュレーションの 2 つの部分に分離し、混合ガウス分布を使用して解像度の低下と圧縮歪みによって引き起こされる結合情報損失をモデル化し、それを微分可能な JPEG 演算子と組み合わせてエンドツーこれにより、一般的な圧縮アルゴリズムに対する堅牢性が大幅に向上します。

現在、画像リサンプリングの研究では、SOTA 法は可逆ネットワークに基づいて全単射関数 (全単射関数) を構築し、その正の演算により画像の高解像度 (HR) を変換します。は、低解像度 (LR) 画像と標準正規分布に従う一連の隠れ変数に変換され、逆演算により隠れ変数がランダムにサンプリングされ、アップサンプリング復元のために LR 画像が結合されます。

可逆ネットワークの特性により、ダウンサンプリング オペレーターとアップサンプリング オペレーターは高度な対称性を維持するため、圧縮された LR 画像が最初に学習されたアップサンプリング オペレーターを通過することが困難になります。復元します。非可逆圧縮に対する堅牢性を強化するために、この研究では、非対称可逆フレームワーク ## に基づく耐圧縮画像リサンプリング モデル SAIN (Self-A対称 I を提案します) #nvertible Nネットワーク)。

SAIN モデルの中核となる革新は次のとおりです:

  • 非対称可逆画像リサンプリング フレームワークを提案し、問題を解決します。従来の手法における厳密な対称性によるパフォーマンスの低下を解決し、圧縮前後のモデリング時に多数のパラメーターと操作を共有しながらモデル フィッティング機能を強化する、強化された可逆モジュール (E-InvBlock) を提案します。モデルが逆演算を通じて圧縮回復とアップサンプリングを実行できるようにします。
  • 学習可能な混合ガウス分布を構築し、解像度の低下と非可逆圧縮によって引き起こされる結合情報損失をモデル化し、再パラメータ化手法を通じて分布パラメータを直接最適化します。これは、隠れた変数の実際の分布。

SAIN モデルは、JPEG および WebP 圧縮下でのパフォーマンスが検証されており、複数の公開データ セットでのパフォーマンスは SOTA モデルよりも大幅に優れています。 AAAI 2023 口頭用。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

  • 紙のアドレス: https://arxiv.org/abs/2303.02353
  • コードリンク: https://github.com/yang-jin-hai/SAIN
  • 非対称リサンプリング フレームワーク

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

# 図 1 デュアル IRN モデルの図。

耐圧縮パフォーマンスを向上させるために、この研究ではまず非対称可逆画像リサンプリング フレームワークを設計し、ベースライン スキーム Dual-IRN モデルを提案し、詳細に分析しました。このスキームの欠点を考慮して、さらなる最適化のために SAIN モデルが提案されました。上の図に示すように、Dual-IRN モデルには 2 つのブランチが含まれています。D-IRN と U-IRN は、それぞれ HR 画像と圧縮前/圧縮後の LR 画像間の全単射を学習する 2 セットの可逆ネットワークです。 。

トレーニング フェーズでは、Dual-IRN モデルは微分可能な JPEG 演算子を介して 2 つのブランチ間の勾配を渡します。テスト段階では、モデルは D-IRN を使用してダウンサンプリングして高品質の LR 画像を取得し、実際の環境で実際に圧縮した後、モデルは圧縮を意識した U-IRN を使用して圧縮の回復とアップサンプリングを完了します。

このような非対称フレームワークにより、アップサンプリングおよびダウンサンプリングの演算子は厳密な可逆関係を回避でき、圧縮アルゴリズムがアップサンプリングおよびダウンサンプリングのプロセスの対称性を破壊することによって引き起こされる問題を根本的に解決します。 ## は、SOTA の対称ソリューションと比較して、耐圧縮性能が大幅に向上していることです。 その後、研究者らは Dual-IRN モデルでさらなる分析を実施し、次の 2 つの現象を観察しました。

まず、測定D-IRN と U-IRN の 2 つのブランチの中間層特徴の CKA 類似性。上の (b) に示すように、D-IRN の最後の層の出力特徴 (つまり、ネットワークによって生成された高品質 LR 画像) は、U-IRN の浅い層の出力特徴と非常に類似しています。 U-IRN の浅い動作はサンプリング損失のシミュレーションに近く、深い動作は圧縮損失のシミュレーションに近いです。
  • 2 番目に、2 つの分岐 D-IRN と U-IRN の中間層にある潜在変数の真の分布を数えます。上記(c)(d)に示すように、圧縮センシングなしのD-IRNの潜在変数は全体として単峰性の正規分布の仮定を満たしているのに対し、圧縮センシングありのU-IRNの潜在変数は多峰性の形状を示しています。これは、非可逆圧縮によって引き起こされる情報損失の形式がより複雑であることを示しています。
  • 上記の分析に基づいて、研究者は複数の側面からモデルを最適化しました。結果として得られた SAIN モデルは、ネットワーク パラメーターの数をほぼ半分に削減しただけでなく、さらに多くのことを達成しました。パフォーマンスの向上。

#SAIN モデルの詳細

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

##図 2 SAIN モデルの図。

SAIN モデルのアーキテクチャは上の図に示されており、次の 4 つの主な改善が加えられています。

1. 全体的な枠組み

。中間層の機能の類似性に基づいて、可逆ネットワーク モジュールのセットはリサンプリングと圧縮シミュレーションの 2 つの部分に分離され、完全な 2 つの可逆ネットワーク セットの使用を避けるために自己非対称アーキテクチャを形成します。テスト段階では、順変換

# を使用して高品質の LR 画像を取得し、最初に逆変換 ## を使用します。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています# 圧縮回復を実行してから、アップサンプリングに逆変換

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています を使用します。

#2. ネットワーク構造Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています。 E-InvBlockは、高周波情報を利用して圧縮損失を回復できることを前提として提案されており、モジュールに加法変換を追加することで、圧縮前後の2組のLR画像を共有しながら効率的にモデル化することができる多数の操作。

3. 情報損失モデリング。潜在変数の真の分布に基づいて、学習可能な混合ガウス分布を使用して、ダウンサンプリングと非可逆圧縮によって引き起こされる結合情報損失をモデル化し、再パラメータ化手法を通じて分布パラメータをエンドツーエンドで最適化することが提案されています。

4. 目的関数

。複数の損失関数は、ネットワークの可逆性を制限し、再構成の精度を向上させるように設計されており、同時に実際の圧縮演算を損失関数に導入して、実際の圧縮スキームに対する堅牢性を高めています。

実験と効果の評価

評価データ セットは、DIV2K 検証セットと 4 つの標準テスト セット Set5、Set14、BSD100、および Urban100 です。

定量的な評価指標は次のとおりです:

  • PSNR: ピーク信号対雑音比、再構成された画像と元の画像の平均二乗誤差を反映するピーク信号対雑音比、高いほど優れています。
  • SSIM: 構造類似性画像測定。再構成された画像と元の画像の間の構造的類似性を測定します。高いほど優れています。

表 1 と図 3 の比較実験では、すべてのデータセットに対する SAIN の PSNR および SSIM スコアは、SOTA の画像リサンプリング モデルよりも大幅に優れています。比較的低い QF では、既存のメソッドでは通常、重大なパフォーマンスの低下が発生しますが、SAIN モデルは引き続き最適なパフォーマンスを維持します。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

#表 1 DIV2K データセットでのさまざまな JPEG 圧縮品質 (QF) を比較する比較実験 再構成品質(PSNR/SSIM)。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

図 3 4 つの標準テスト セットでの異なる JPEG QF の再構成品質を比較した比較実験 ( PSNR)。 #図 4 の視覚化結果では、SAIN によって復元された HR 画像が

より鮮明で正確であることがはっきりとわかります

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

# 図 4 JPEG 圧縮下でのさまざまな方法の視覚化結果の比較 (倍率 4 倍)。

表 2 のアブレーション実験では、研究者らは実際の圧迫と組み合わせたトレーニングの他のいくつかの候補も比較しました。これらの候補は、完全対称既存モデル (IRN) よりも圧縮に対して耐性がありますが、パラメーターの数と精度の点で SAIN モデルよりも劣っています。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています#表 2 全体的なフレームワークとトレーニング戦略のアブレーション実験。

図 5 の視覚化結果では、研究者らは、WebP 圧縮歪み下でのさまざまな画像リサンプリング モデルの再構成結果を比較しました。また、SAIN モデルは、WebP 圧縮スキームの下で最高の再構成スコアを示し、画像の詳細を明確かつ正確に復元できることがわかり、SAIN がさまざまな圧縮スキームと互換性があることが証明されています。

図 5 WebP 圧縮下でのさまざまな方法の定性的および定量的な比較 (倍率 2 倍)。

Byte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案しています

さらに、この研究では、混合ガウス分布、E-InvBlock、損失関数のアブレーション実験も実施し、これらの改善が結果にプラスの影響を与えることを証明しました。 。 概要と展望

Volcano Engine Multimedia Laboratoryは、非圧縮画像リサンプリングのための非対称可逆フレームワークであるSAINに基づくモデルを提案しました。モデルは、リサンプリングと圧縮シミュレーションの 2 つの部分で構成されます。混合ガウス分布を使用して、解像度の低下と圧縮歪みによって引き起こされる結合情報損失をモデル化します。エンドツーエンドのトレーニング用に微分可能な JPEG 演算子と組み合わせられます。 -InvBlock はモデルを強化するために提案されており、フィッティング機能により一般的な圧縮アルゴリズムに対する堅牢性が大幅に向上します。

火山エンジン マルチメディア研究所は、ByteDance 傘下の研究チームです。マルチメディア分野の最先端技術の探索と国際標準化作業への参加に取り組んでいます。その多くの革新的なアルゴリズム、ソフトウェアおよびハードウェア ソリューションは広く利用されています。 Douyin、Douyin などで使用されます。Xigua Video およびその他の製品のマルチメディア ビジネスであり、Volcano Engine のエンタープライズ レベルの顧客に技術サービスを提供します。研究室の設立以来、多くの論文が一流の国際会議や主要ジャーナルに選出され、いくつかの国際技術コンテストチャンピオンシップ、業界イノベーション賞、最優秀論文賞を受賞しています。

今後、研究チームは、非可逆圧縮下での画像リサンプリング モデルのパフォーマンスの最適化を継続し、非圧縮ビデオ リサンプリングや任意のリサンプリングなど、より複雑なアプリケーション シナリオをさらに調査していきます。倍率リサンプリングです。

以上がByte は、JPEG および WebP で SOTA をリードする耐圧縮パフォーマンスを備えた非対称画像リサンプリング モデルを提案していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース Jun 13, 2024 pm 01:59 PM

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Yolov10: 詳細な説明、展開、アプリケーションがすべて 1 か所にまとめられています。 Jun 07, 2024 pm 12:05 PM

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために

清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。 清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。 Jun 06, 2024 pm 12:20 PM

ターゲット検出システムのベンチマークである YOLO シリーズが再び大幅にアップグレードされました。今年 2 月の YOLOv9 のリリース以来、YOLO (YouOnlyLookOnce) シリーズのバトンは清華大学の研究者の手に渡されました。先週末、YOLOv10 のリリースのニュースが AI コミュニティの注目を集めました。これは、コンピュータ ビジョンの分野における画期的なフレームワークと考えられており、リアルタイムのエンドツーエンドの物体検出機能で知られており、効率と精度を組み合わせた強力なソリューションを提供することで YOLO シリーズの伝統を継承しています。論文アドレス: https://arxiv.org/pdf/2405.14458 プロジェクトアドレス: https://github.com/THU-MIG/yo

Java フレームワークの商用サポートの費用対効果を評価する方法 Java フレームワークの商用サポートの費用対効果を評価する方法 Jun 05, 2024 pm 05:25 PM

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

Google Gemini 1.5 テクニカル レポート: 数学オリンピックの問題を簡単に証明、Flash バージョンは GPT-4 Turbo より 5 倍高速 Google Gemini 1.5 テクニカル レポート: 数学オリンピックの問題を簡単に証明、Flash バージョンは GPT-4 Turbo より 5 倍高速 Jun 13, 2024 pm 01:52 PM

今年 2 月、Google はマルチモーダル大型モデル Gemini 1.5 を発表しました。これは、エンジニアリングとインフラストラクチャの最適化、MoE アーキテクチャ、その他の戦略を通じてパフォーマンスと速度を大幅に向上させました。より長いコンテキスト、より強力な推論機能、およびクロスモーダル コンテンツのより適切な処理が可能になります。今週金曜日、Google DeepMind は Gemini 1.5 の技術レポートを正式にリリースしました。このレポートには Flash バージョンとその他の最近のアップグレードが含まれています。このドキュメントは 153 ページあります。技術レポートのリンク: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf このレポートでは、Google が Gemini1 を紹介しています。

レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ レビュー!自動運転推進におけるベーシックモデルの重要な役割を総まとめ Jun 11, 2024 pm 05:29 PM

上記および著者の個人的な理解: 最近、ディープラーニング技術の発展と進歩により、大規模な基盤モデル (Foundation Model) が自然言語処理とコンピューター ビジョンの分野で大きな成果を上げています。自動運転における基本モデルの応用にも大きな発展の可能性があり、シナリオの理解と推論を向上させることができます。豊富な言語と視覚データの事前トレーニングを通じて、基本モデルは自動運転シナリオのさまざまな要素を理解して解釈し、推論を実行して、運転の意思決定と計画のための言語とアクションのコマンドを提供します。基本モデルは、運転シナリオを理解してデータを拡張することで、日常的な運転やデータ収集では遭遇する可能性が低い、ロングテール分布におけるまれな実現可能な機能を提供できます。

PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? PHP フレームワークの学習曲線は他の言語フレームワークと比較してどうですか? Jun 06, 2024 pm 12:41 PM

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? PHP フレームワークの軽量オプションはアプリケーションのパフォーマンスにどのような影響を与えますか? Jun 06, 2024 am 10:53 AM

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

See all articles