エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました-AI-php.cn

実験結果

ホームページ

テクノロジー周辺機器

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 07, 2024 pm 10:12 PM

ai 電車

現在のディープエッジ検出ネットワークは通常、エンコーダ/デコーダアーキテクチャを採用しており、マルチレベルの特徴をより適切に抽出するためのアップサンプリングモジュールとダウンサンプリングモジュールが含まれています。ただし、この構造では、ネットワークが正確かつ詳細なエッジ検出結果を出力することが制限されます。

この問題に対して、AAAI 2024 の論文では新しい解決策が提供されています。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

論文のタイトル: DiffusionEdge: 鮮明なエッジ検出のための拡散確率モデル

国立防衛工科大学 iGRAPE Lab が 2 次元エッジの新しい手法を提案検出タスク。この方法では、拡散確率モデルを利用して、学習反復ノイズ除去プロセス中にエッジ結果マップを生成します。コンピューティングリソースの消費を削減するために、この方法では潜在スペースを使用してネットワークをトレーニングし、不確実性蒸留モジュールを導入してパフォーマンスを最適化します。同時に、この方法では、ノイズ除去プロセスを高速化するために分離アーキテクチャも採用し、特徴を調整するために適応フーリエフィルターを導入します。これらの設計により、この方法は限られたリソースで安定してトレーニングし、より少ない拡張戦略で明確で正確なエッジマップを予測できます。実験結果は、この方法が 4 つの公開ベンチマークデータセットにおける精度と精度の点で他の方法よりも大幅に優れていることを示しています。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました #図 1 拡散確率モデルに基づくエッジ検出プロセスと利点の例

この記事の内容:

エッジ検出タスク用の拡散モデル DiffusionEdge を提案しました。これにより、後処理なしでより細かく、より正確なエッジマップを予測できます。

拡散モデルを適用する際の困難を解決するために、メソッドが潜在空間で安定して学習することを保証するさまざまな手法を設計しました。同時に、ピクセルレベルの不確実性の事前知識も保持し、フーリエ空間の潜在的な特徴を適応的にフィルタリングします。

3. 4 つのエッジ検出公開ベンチマークデータセットに対して行われた広範な比較実験により、DifffusionEdge には精度と精細さの点で優れたパフォーマンス上の利点があることが実証されました。

ディープラーニングに基づくメソッドは、通常、多層機能を統合するためにアップサンプリングとダウンサンプリングを含むコーデック構造を採用します [1- 2]、または複数のアノテーションの不確実性情報を統合して、エッジ検出の精度を向上させます [3]。ただし、そのような構造によって当然制限されるため、生成されるエッジ結果マップは下流のタスクには厚すぎ、後処理に大きく依存するため、この問題はまだ解決される必要があります。ネットワークがより細かいエッジを出力できるようにするために、損失関数 [4-5] やラベル修正戦略 [6] で多くの研究が行われてきましたが、この論文では、この分野には追加のモジュールなしで使用できる方法がまだ必要であると考えています。後処理ステップを必要とせずに、精度と精細度を直接満たす検出器です。

拡散モデルは、マルコフ連鎖に基づく生成モデルの一種であり、学習ノイズ除去プロセスを通じてターゲットデータサンプルを徐々に復元します。拡散モデルは、コンピュータビジョン、自然言語処理、オーディオ生成などの分野で優れたパフォーマンスを示しています。それだけでなく、画像やその他のモーダル入力を追加条件として使用することで、画像セグメンテーション [7]、ターゲット検出 [8]、姿勢推定 [9] などの知覚タスクでも大きな可能性を示します。

手法の説明

この記事で提案する DiffusionEdge 手法の全体的な枠組みを図 2 に示します。以前の研究からインスピレーションを得たこの方法は、潜在空間内の分離構造を使用して拡散モデルをトレーニングし、追加の条件付きキューとして画像を入力します。この方法では、周波数解析に適応フーリエフィルターが導入されており、複数のアノテーターからのピクセルレベルの不確実性情報を保持し、コンピューティングリソースの要件を軽減するために、蒸留された方法でクロスエントロピー損失の最適化も直接使用されます。

図 2 DiffusionEdge の全体構造

現在の拡散モデルはサンプリングステップが多すぎる、推論時間が長すぎるなどの問題に悩まされているため、この方法は影響を受けます。 by DDM [10] からインスピレーションを得た、分離拡散モデルアーキテクチャは、サンプリング推論プロセスを高速化するためにも使用されます。このうち、分離された順拡散プロセスは、明示的な遷移確率と標準ウィナープロセスの組み合わせによって制御されます。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたここで、とはそれぞれ初期エッジとノイズエッジを表し、は逆エッジ勾配の明示的な変換関数を指します。 DDM と同様に、このメソッドはデフォルトで定数関数を使用し、対応する逆プロセスは次のように表すことができます:

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました where 。分離拡散モデルをトレーニングするには、この方法ではデータとノイズ成分を同時に監視する必要があるため、トレーニング目標は次のようにパラメータ化できます。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

# #ここで、エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたはノイズ除去ネットワークのパラメーターです。拡散モデルを元の画像空間で学習させると計算コストがかかりすぎるため、[11] の考え方を参考に、本論文で提案する手法では学習プロセスを 4 倍の潜在空間に転送します。ダウンサンプリング空間のサイズ。

図 2 に示すように、このメソッドは最初にオートエンコーダーとデコーダーネットワークのペアをトレーニングします。エンコーダーはエッジアノテーションを潜在変数に圧縮し、デコーダーは元のエッジを復元するために使用されます。この潜在変数からラベルを取得します。このように、この方法は、U-Net 構造に基づくノイズ除去ネットワークのトレーニング段階で、オートエンコーダーとデコーダーネットワークのペアの重みを固定し、潜在空間でノイズ除去プロセスをトレーニングするため、計算量を大幅に削減できます。ネットワークのコスト、良好なパフォーマンスを維持しながらのリソースの消費。

ネットワークの最終パフォーマンスを向上させるために、この記事で提案する方法では、デカップリング操作でさまざまな周波数の特徴を適応的にフィルタリングできるモジュールを導入しています。図 2 の左下隅に示すように、この方法では、デカップリング操作の前に、適応型高速フーリエ変換フィルター (適応型 FFT フィルター) をノイズ除去 Unet ネットワークに統合し、周波数領域で適応的にフィルター処理して分離します。コンポーネント。具体的には、エンコーダ特徴エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたが与えられると、メソッドはまず空間次元に沿って 2 次元フーリエ変換 (FFT) を実行し、変換された特徴をエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたとして表します。次に、この適応スペクトルフィルタリングモジュールをトレーニングするために、学習可能な重みマップエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたが構築され、その W に Fc が乗算されます。スペクトルフィルターは特定の周波数をグローバルに調整でき、学習された重みはさまざまなデータセット内のターゲット分布のさまざまな周波数ケースに適応できます。この方法は、無駄な成分を適応的にフィルタリングして除去することにより、逆高速フーリエ変換 (IFFT) 操作を通じて、周波数領域の特徴を空間領域にマッピングし直します。最後に、からの残りの接続を追加導入することで、すべての有用な情報が完全に除外されることを回避します。上記のプロセスは、次の式で説明できます。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

ここで、エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたは出力特徴量、o はアダマール積を表します。

エッジピクセルと非エッジピクセルの数は非常にアンバランスであるため (ほとんどのピクセルは非エッジ背景)、以前の研究を参照して、不確実性を考慮した損失関数も導入します。電車。具体的には、j 番目のエッジマップの i 番目のピクセルの i 番目のピクセルの真のエッジ確率として、その値がエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたである場合、不確実性を考慮した WCE 損失は次のように計算されます。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

where エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました , ここで、は、真の値アノテーションの不確実なエッジピクセルを決定するしきい値です。ピクセル値が 0 より大きく、このしきい値より小さい場合、このタイプのブラーは次のようになります。十分な自信がありません。ピクセルサンプルは後続の最適化プロセスでは無視されます (損失関数は 0)。エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたとはそれぞれ、グラウンドトゥルースの注釈付きエッジマップ内のエッジピクセルと非エッジピクセルの数を表します。エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたとの重みのバランスを取るために使用されます (1.1 に設定)。したがって、各エッジマップの最終的な損失関数はエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたとして計算されます。

最適化プロセス中にぼやけた信頼性の低いピクセルを無視すると、ネットワークの混乱が回避され、トレーニングプロセスがより安定して収束し、モデルのパフォーマンスが向上します。ただし、数値的にも空間的にもずれている潜在空間にバイナリのクロスエントロピー損失を直接適用することはほとんど不可能です。特に、不確実性を考慮したクロスエントロピー損失では、しきい値 (通常は 0 から 1) を使用して、ピクセルが画像空間から定義されるエッジであるかどうかを判断しますが、潜在変数は正規分布に従い、完全に異なるものになります。範囲と実際的な重要性。さらに、ピクセルレベルの不確実性は、エンコードおよびダウンサンプリングされた潜在特徴のサイズの違いと調和させるのが難しく、この 2 つは直接互換性がありません。したがって、潜在変数を最適化するためにクロスエントロピー損失を直接適用すると、必然的に不確実性の誤った認識につながります。エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

一方、潜在変数をデコードして画像レベルに戻すことを選択することもでき、不確実性を考慮したクロスエントロピー損失を使用して予測エッジ結果マップを直接監視できます。残念ながら、この実装では逆伝播されたパラメータ勾配が冗長オートエンコーダネットワークを通過できるため、勾配を効果的に転送することが困難になります。さらに、オートエンコーダネットワークでの追加の勾配計算は、膨大な GPU メモリ消費コストをもたらしますが、これは実用的なエッジ検出器を設計するというこの方法の本来の目的に反しており、実用的なアプリケーションに一般化することが困難です。そこで本手法は，潜在空間上の勾配を直接最適化できる不確実性蒸留損失を提案する．この方法では、連鎖則に基づいて不確実性を考慮したバイナリクロスエントロピー損失の勾配を直接計算することを考慮しています。具体的な計算方法は次のとおりです: エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

オートエンコーダネットワークの悪影響を排除するために、このメソッドはオートエンコーダ

を直接スキップして勾配を渡し、勾配の計算方法を次のように調整します。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

# このような実装により、計算コストが大幅に削減され、不確実性を考慮した損失関数を使用して潜在変数を直接最適化できるようになります。このように、ステップ数 t に応じて適応的に変化する時間変化する損失重みエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたと組み合わせると、この方法の最終的なトレーニング最適化目標は次のように表すことができます:

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

実験結果

この方法は、BSDS、NYUDv2、Multicue、BIPED の 4 つの分野で広く使用されているエッジ検出用の公的標準データセットでテストされました。。エッジ検出データにラベルを付けるのは難しく、ラベル付けされたデータの量は比較的少ないため、従来の方法では通常、データセットを強化するためにさまざまな戦略が使用されていました。たとえば、BSDS の画像は、水平反転 (2 倍)、スケーリング (3 倍)、および回転 (16 倍) によって強化され、その結果、元のバージョンよりも 96 倍大きいトレーニングセットが生成されます。他のデータセットで以前の方法で使用された一般的な強調戦略を表 1 にまとめます。ここで、F は水平方向の反転、S はスケーリング、R は回転、C はトリミング、G はガンマ補正を表します。違いは、この方法では、すべてのデータをトレーニングするために、ランダムに切り取られた 320320 の画像パッチを使用するだけでよいということです。 BSDS データセットでは、この方法はランダムな反転とスケーリングのみを使用しており、その定量的な比較結果を表 2 に示します。 NYUDv2、Multicue、および BIPED データセットでは、メソッドはランダムな反転でトレーニングするだけで済みます。この方法は、強化戦略の数が少ないため、さまざまなデータセットやさまざまな指標に対して以前の方法よりも優れたパフォーマンスを発揮します。図 3-5 の予測結果を観察すると、DifffusionEdge が gt 分布とほぼ同じエッジ検出結果を学習および予測できることがわかります。正確で明確な予測結果の利点は、改良が必要な下流のタスクにとって非常に重要です。 . 、その後のタスクに直接適用できる大きな可能性も実証しました。

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

#表 1 4 つのエッジ検出データセットに対する以前の方法で使用された拡張戦略

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

表 2 BSDS データセットのさまざまなメソッドの定量的比較

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

図 3 BSDS データセットのさまざまなメソッドの定性的比較

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

#図 4 NYUDv2 データセットでのさまざまな手法の定性的比較

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました

##図 5 BIPED データセットでのさまざまな手法の定性的比較

以上がエンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7488

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

SQLに新しい列を追加する方法 Apr 09, 2025 pm 02:09 PM

Alter Tableステートメントを使用して、SQLの既存のテーブルに新しい列を追加します。特定の手順には、テーブル名と列情報の決定、テーブルステートメントの変更、およびステートメントの実行が含まれます。たとえば、顧客テーブルに電子メール列を追加します（Varchar（50））：Alter Table Customersはメール（50）を追加します。

SQLに列を追加するための構文は何ですか Apr 09, 2025 pm 02:51 PM

sqlに列を追加するための構文は、table table_name add column_name data_type [not null] [default default_value];です。 table_nameはテーブル名、column_nameは新しい列名、data_typeはデータ型であり、nullはnull値が許可されているかどうかを指定しない、デフォルトのdefault_valueがデフォルト値を指定します。

SQLクリアテーブル：パフォーマンスの最適化のヒント Apr 09, 2025 pm 02:54 PM

SQLテーブルクリアパフォーマンスを改善するためのヒント：削除の代わりにTruncateテーブルを使用し、スペースを解放し、ID列をリセットします。カスケードの削除を防ぐために、外部のキーの制約を無効にします。トランザクションカプセル化操作を使用して、データの一貫性を確保します。バッチはビッグデータを削除し、制限で行数を制限します。クリアリング後にインデックスを再構築して、クエリ効率を改善します。

sqlに列を追加するときにデフォルト値を設定する方法 Apr 09, 2025 pm 02:45 PM

新しく追加された列のデフォルト値を設定します。3つのテーブルステートメントを使用します。列の追加を指定し、デフォルト値を設定します：table table_name add column_name data_type default_valueを変更します。制約句を使用してデフォルト値を指定します。テーブルテーブルを変更する列列の追加column_name data_type constraint default_constraint default default_value;

削除ステートメントを使用して、SQLテーブルをクリアします Apr 09, 2025 pm 03:00 PM

はい、削除ステートメントを使用してSQLテーブルをクリアできます。手順は次のとおりです。クリアするテーブルの名前にtable_nameを置き換えます。

phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します（InnoDB推奨）。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Redisメモリの断片化に対処する方法は？ Apr 10, 2025 pm 02:24 PM

Redisメモリの断片化とは、再割り当てできない割り当てられたメモリ内に小さな自由領域の存在を指します。対処戦略には、Redisの再起動：メモリを完全にクリアしますが、サービスを割り当てます。データ構造の最適化：Redisに適した構造を使用して、メモリの割り当てとリリースの数を減らします。構成パラメーターの調整：ポリシーを使用して、最近使用されていないキー価値ペアを排除します。永続性メカニズムを使用します：データを定期的にバックアップし、Redisを再起動してフラグメントをクリーンアップします。メモリの使用量を監視する：問題をタイムリーに発見し、対策を講じる。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB（コンテナデータベース）、PDB（プラグ可能なデータベース）などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

See all articles

エンコーダ/デコーダ アーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する 国立防衛工科大学は DiffusionEdge を提案しました

実験結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

エンコーダ/デコーダアーキテクチャを放棄し、より効果的なエッジ検出に拡散モデルを使用する国立防衛工科大学は DiffusionEdge を提案しました