球面ディープラーニングを高解像度の入力データにスケーリングする-AI-php.cn

従来の球面深層学習手法には計算が必要です

球面上の散乱ネットワーク

概要

参考文献

翻訳者紹介

ホームページ

テクノロジー周辺機器

球面ディープラーニングを高解像度の入力データにスケーリングする

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 02:40 PM

データ分析ディープラーニングスキャッタネットワーク

翻訳者 | Zhu Xianzhong

査読者 | Sun Shujuan

従来の球面 CNN は高解像度分類に拡張できないタスク。この論文では、関連情報を保持しながら入力データの次元を削減でき、回転等分散特性も備えた新しいタイプの球面散乱層を紹介します。

散乱ネットワークは、畳み込みフィルターを最初から学習するのではなく、ウェーブレット解析から事前に定義された畳み込みフィルターを使用して機能します。散乱層の重みは学習されるのではなく特別に設計されるため、散乱層を 1 回限りの前処理ステップとして使用することができ、それによって入力データの解像度が低下します。私たちのこれまでの経験では、初期散乱層を備えた球状 CNN は数千万ピクセルの解像度まで拡張できることが示されており、これは従来の球状 CNN 層では以前は達成できなかった偉業です。

従来の球面深層学習手法には計算が必要です

球面 CNN (ドキュメント 1、2、3) は、機械学習におけるさまざまなタイプの問題を解決するのに非常に役立ちます。これらの問題の多くには、平面上で自然に表現できないデータソースがあります (これについての入門については、にある前回の記事を参照してください: https://towardsdatascience.com/geometric- deep-learning-for-spherical-データ-55612742d05f）。

球面 CNN の重要な特徴は、球面データの回転と等変であることです (この記事では、回転等変法に焦点を当てます)。実際には、これは球状 CNN が優れた一般化特性を備えていることを意味し、3D オブジェクトのメッシュを、回転方法 (およびさまざまな回転のトレーニング中にメッシュが表示されるかどうか) に関係なく分類するなどの作業を行うことができます。

最近の公開記事で記述しました Kagenovaチーム球面CNNの計算効率を向上させるために開発された一連の開発成果(参考アドレス: https://towardsdatascience .com/efficient-generalized-spherical-cnns-1493426362ca)。私たちが採用したメソッド - 効率的な一般化球面 CNN - 両方のは伝統球面 CNN の等分散特性により、計算効率も向上します (文献 1)。ただし、このような計算効率の向上にも関わらず、球面 CNN は依然として比較的低解像度のデータに限定されています。これは、、球状 CNN は現在、通常より高い分解能を必要とする撹拌には適用できないことを意味しますアプリケーションシナリオにおけるデータ # (宇宙論的データ分析や仮想現実の 360 度コンピュータービジョンなど) ＃＃＃田畑＃＃＃＃＃＃。最近公開された記事では、効率的な一般球面 CNN ## を柔軟に調整するための球面散乱層ネットワークを紹介しました。 #来解像度を向上させます (ドキュメント 4)。この記事では内容を確認します。高解像度の入力データをサポートするハイブリッドアプローチ効率的なユニバーサル球面 CNN (参考 1) を開発する際、球 A を構築する非常に効果的な方法を発見しました。 CNN アーキテクチャへのハイブリッドアプローチ。ハイブリッド球面 CNN は、同じネットワーク内でさまざまなスタイルの球面 CNN レイヤーを使用できるため、開発者は処理のさまざまな段階でさまざまなタイプのレイヤーの利点を得ることができます。上の図は、ハイブリッド球面 CNN アーキテクチャの例を示しています (注意: これらのレイヤーは単一のものではなく、いくつかの異なるスタイルのレイヤーです)球状 CNN 層)。

Scattering Networks on Spheres は、このハイブリッドアプローチを継続し、既存の球状アーキテクチャに接続できる新しい球状 CNN レイヤーを導入します。効率的な一般球面 CNN を高次元に拡張するには、この新しい層には次の特性が必要です。

計算サポートによるスケーラビリティ
情報を低周波にブレンドして、後続のレイヤーを低解像度で実行できるようにします
回転等分散
安定性と局所的に不変な表現を提供します(つまり、効率的な表現空間を提供する)

# 散乱ネットワーク層には、上で列挙したこれらの特性をすべて満たす可能性があると判断しました。

球面上の散乱ネットワーク

ユークリッド環境で Mallat によって最初に提案された散乱ネットワーク (参考文献 5) は、固定畳み込みフィルタリングを持つものとみなすことができます。CNN の場合、これらはフィルターはウェーブレット解析から派生します。散乱ネットワークは、特にデータが限られている場合、つまり畳み込みフィルターの学習が難しい場合に、従来の (ユークリッド) コンピュータービジョンに非常に役立つことが証明されています。次に、散乱ネットワーク層の内部動作、散乱ネットワーク層が前のセクションで定義された要件をどのように満たすか、球面データ解析用に散乱ネットワーク層を開発する方法について簡単に説明します。

散乱層内のデータ処理は、3 つの基本操作によって実行されます。最初の構成要素は固定ウェーブレット畳み込みで、これはユークリッド CNN で使用される通常の学習畳み込みに似ています。ウェーブレット畳み込み後、散乱ネットワークは結果の表現にモジュール式非線形アプローチを適用します。最後に、スキャッタリングは、通常の CNN のプーリング層といくつかの類似点を備えたローカル平均化アルゴリズムを実行するスケーリング関数を利用します。これら 3 つの構成要素を繰り返し適用すると、入力データが計算ツリーに分散され、処理のさまざまな段階で結果の表現 (CNN チャネルと同様) がツリーから抽出されます。これらの操作の簡略図を以下に示します。

球面ディープラーニングを高解像度の入力データにスケーリングする

#この図は、球状信号 f の球状散乱ネットワークを示しています。信号は、赤いノードで表される絶対値活性化関数と組み合わせられたカスケード球面ウェーブレット変換を介して伝播されます。散乱ネットワークの出力は、これらの信号を球面ウェーブレットスケーリング関数に投影することによって取得され、散乱係数は青色のノードで表されます。

従来のディープラーニングの観点から見ると、分散型ネットワークの運用は少しわかりにくいように思えるかもしれません。ただし、説明されている各計算操作には特定の目的があり、ウェーブレット解析の信頼できる理論的結果を利用することを目的としています。

散乱ネットワークにおけるウェーブレット畳み込みは、入力データから関連情報を抽出するために慎重に導出されます。たとえば、自然画像の場合、ウェーブレットは、高周波数のエッジと低周波数のオブジェクトの一般的な形状に関連する情報を特に抽出するために定義されます。したがって、平面設定では、散乱ネットワークフィルターは従来の CNN フィルターといくつかの類似点がある可能性があります。同じことが球面設定にも当てはまり、スケール離散ウェーブレットを使用します (詳細については参考文献 4 を参照)。

ウェーブレットフィルターは固定されているため、初期散乱層は 1 回適用するだけでよく、トレーニングプロセス全体を通じて繰り返し適用する必要はありません (従来の CNN の初期層など) ）。これにより、散乱ネットワークは計算的にスケーラブルになり、上記の機能 1 の要件を満たします。さらに、散乱層は入力データの次元を削減します。これは、下流の CNN 層をトレーニングするときに、散乱表現をキャッシュするために使用する必要があるストレージスペースが限られているだけであることを意味します。

ウェーブレット畳み込みの後に、モジュール式非線形手法が続きます。まず、これにより、ニューラルネットワーク層に非線形特性が注入されます。次に、モジュラス演算により、入力信号の高周波情報が低周波データに混合され、上記の要件 2 が満たされます。以下の図は、モジュラス非線形計算の前後のデータのウェーブレット表現の頻度分布を示しています。

球面ディープラーニングを高解像度の入力データにスケーリングする

#上の図は、モジュラー演算の前後のさまざまな球面周波数 l でのウェーブレット係数の分布を示しています。入力信号のエネルギーは、高周波数 (左のパネル) から低周波数 (右のパネル) に移動します。ここで、f は入力信号、Ψ はスケーリング j のウェーブレットを表します。

モジュラス計算を適用した後、結果の信号をスケーリング関数に投影します。スケーリング関数は、従来の CNN のプーリング関数の操作と同様に、表現結果から低周波情報を抽出します。

私たちは、球面散乱ネットワークの理論上の等分散特性を経験的にテストしました。テストは、信号を回転して散乱ネットワークに送り、その結果の表現を、散乱ネットワークを通過して回転計算を実行した後の入力データの結果の表現と比較することによって実行されます。以下の表のデータから、特定の深さの等分散誤差が低く、上記の要件 3 を満たしていることがわかります (通常、実際には、1 つのパスの深さが 2 つのパスの深さを超えることはありません。信号エネルギーはすでに捕捉されています)。

球面ディープラーニングを高解像度の入力データにスケーリングする

深さの異なる球面散乱ネットワークの回転等分散誤差

ついに理論的に証明されましたユークリッド散乱ネットワークは、小さな差分や歪みに対して安定しています。(Documentation5)。現在、この結果は、コンパクトなリーマン多様体 (文書 6) 上の散乱ネットワーク、特に球面に拡張されています環境 (ドキュメント4)。実際には、視差形態に対する安定性は、入力がわずかに変更された場合でも、散乱ネットワークによって計算された表現が大きく変わらないことを意味します (幾何学的な深層学習における安定性の役割の議論については、以前の投稿を参照してください) , アドレスは https://towardsdatascience.com/a-brief-introduction-to-geometric-deep-learning-dae114923ddb) です。したがって、散乱ネットワークは、その後の学習を効率的に実行できる良好なパフォーマンスの表現空間を提供し、上記の要件 4 を満たします。スケーラブルで回転等変な球面 CNN

導入した散乱層が必要な特性をすべて満たしていることを考慮して、次に、それらをハイブリッド球面 CNN に統合する準備が整いました。前述したように、散乱層は最初の前処理ステップとして既存のアーキテクチャに固定され、後続の球面層処理の表現サイズを縮小できます。

球面ディープラーニングを高解像度の入力データにスケーリングする

上の画像では、散乱層モジュール (点線の左側) が設計層です。つまり、残りの層 (点線の右側) はトレーニング可能ですが、トレーニングは必要ありません。したがって、これは、散乱層を 1 回だけの前処理ステップとして適用して、入力データの次元を削減できることを意味します。

散布ネットワークは特定の入力の固定表現を持っているため、散布ネットワークレイヤーはトレーニングの開始時にデータセット全体に 1 回適用でき、結果の低次元表現は次の場所にキャッシュされます。後続の層をトレーニングします。幸いなことに、散布表現では次元が削減されているため、散布表現を保存するために必要なディスク容量は比較的少なくて済みます。この新しい球面散乱層の存在により、効率的な一般化球面 CNN を高解像度の分類問題の領域に拡張できます。

宇宙マイクロ波背景放射異方性の分類

物質は宇宙全体にどのように分布しているのでしょうか?これは宇宙学者にとっての基本的な研究課題であり、宇宙の起源と進化の理論モデルに重要な意味を持ちます。宇宙マイクロ波背景放射 (CMB) (ビッグバンの残留エネルギー) は、宇宙内の物質の分布をマッピングします。宇宙学者は天球上の CMB を観察しますが、これには天球内での宇宙論的分析を可能にする計算手法が必要です。

宇宙学者は、宇宙マイクロ波背景放射を分析する方法に非常に興味を持っています。これらの方法は、宇宙全体の宇宙マイクロ波背景放射の分布における非ガウス特性を検出できるため、理論に重要な意味を持ちます。初期宇宙の、非常に重要な意味を持つ。この分析方法は、天文学的な解像度まで拡張できる必要もあります。 CMB シミュレーションを解像度 L = 1024 でガウスまたは非ガウスとして分類することで、散乱ネットワークがこれらの要件を満たしていることを示します。散乱ネットワークは、これらのシミュレーションを 95.3% の精度で分類することに成功しました。これは、低解像度の従来の球面 CNN によって達成される 53.1% よりもはるかに優れています。

球面ディープラーニングを高解像度の入力データにスケーリングする

上の図は、球面の膨張を評価するために使用される、ガウス型および非ガウス型 CMB の高解像度シミュレーションの例を示しています。散乱ネットワークを高解像度に変換する能力。

概要

この論文では、下流のタスクのための重要な情報を保持しながら、入力表現の次元を圧縮する球面散乱層の機能を調査しました。これにより、散乱層が高解像度の球体分類タスクに非常に役立つことがわかりました。これにより、宇宙論的データ分析や高解像度 360 画像/ビデオ分類など、これまで困難だった潜在的なアプリケーションへの扉が開かれます。ただし、セグメンテーションや深度推定など、高密度の予測を必要とするコンピュータービジョンの問題の多くは、高次元の出力と高次元の入力の両方を必要とします。最後に、等分散を維持しながら出力表現の次元を高めることができる、制御可能な球状 CNN 層を開発する方法が、Kagenova 開発者による現在の研究テーマです。これらについては次の記事で説明します。

参考文献

［1］Cobb、Wallis、Mavor-Parker、Marignier、Price、d'Avezac、McEwen、効率的な一般化球面 CNN、ICLR (2021) 、 arXiv:2010.11661

［2］コーエン、ガイガー、ケーラー、ウェリング、球面 CNN、ICLR (2018)、arXiv:1801.10130

［ 3］ Esteves, Allen-Blanchette, Makadia, Daniilidis, Learning SO(3) Equivariant Representations with Spherical CNNs, ECCV (2018), arXiv:1711.06721

［4］ McEwen, Jason , Wallis、Christopher、Mavor-Parker、Augustin N.、Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs、ICLR (2022)、arXiv:2102.02828

［5］ Bruna 、 Joan、Stéphane Mallat、Invariant scattering convolution network、IEEE Transaction on Pattern Analysis and Machine Intelligence (2013)

［6］ Perlmutter、Michael、他、Geometric wavelet scattering network onコンパクトリーマン多様体、数学的および科学的機械学習PMLR (2020)、arXiv:1905.10448

翻訳者紹介

Zhu Xianzhong、51CTO コミュニティエディター、51CTO エキスパートブログ、講師、濰坊市の大学のコンピューター教師であり、フリーランスのプログラミング業界のベテランです。

#元のタイトル: 球状深層学習を高解像度の入力データに拡張する、著者: Jason McEwen、Augustin Mavor-Parker

以上が球面ディープラーニングを高解像度の入力データにスケーリングするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7555

CakePHP チュートリアル

1384

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ORB-SLAM3を超えて！ SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッドビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

1 つの記事で理解: AI、機械学習、ディープラーニングのつながりと違い Mar 02, 2024 am 11:19 AM

今日の急速な技術変化の波の中で、人工知能 (AI)、機械学習 (ML)、および深層学習 (DL) は輝かしい星のようなもので、情報技術の新しい波をリードしています。これら 3 つの単語は、さまざまな最先端の議論や実践で頻繁に登場しますが、この分野に慣れていない多くの探検家にとって、その具体的な意味や内部のつながりはまだ謎に包まれているかもしれません。そこで、まずはこの写真を見てみましょう。ディープラーニング、機械学習、人工知能の間には密接な相関関係があり、進歩的な関係があることがわかります。ディープラーニングは機械学習の特定の分野であり、機械学習

超強い！深層学習アルゴリズムのトップ 10! Mar 15, 2024 pm 03:46 PM

2006 年にディープラーニングの概念が提案されてから、ほぼ 20 年が経過しました。ディープラーニングは、人工知能分野における革命として、多くの影響力のあるアルゴリズムを生み出してきました。では、ディープラーニングのトップ 10 アルゴリズムは何だと思いますか?私の考えでは、ディープラーニングのトップアルゴリズムは次のとおりで、いずれもイノベーション、アプリケーションの価値、影響力の点で重要な位置を占めています。 1. ディープニューラルネットワーク (DNN) の背景: ディープニューラルネットワーク (DNN) は、多層パーセプトロンとも呼ばれ、最も一般的なディープラーニングアルゴリズムです。最初に発明されたときは、コンピューティング能力のボトルネックのため疑問視されていました。最近まで長年にわたる計算能力、データの爆発的な増加によって画期的な進歩がもたらされました。 DNN は、複数の隠れ層を含むニューラルネットワークモデルです。このモデルでは、各層が入力を次の層に渡し、

AlphaFold 3 が発売され、タンパク質とすべての生体分子の相互作用と構造をこれまでよりもはるかに高い精度で包括的に予測します。 Jul 16, 2024 am 12:08 AM

エディター | Radish Skin 2021 年の強力な AlphaFold2 のリリース以来、科学者はタンパク質構造予測モデルを使用して、細胞内のさまざまなタンパク質構造をマッピングし、薬剤を発見し、既知のあらゆるタンパク質相互作用の「宇宙地図」を描いてきました。ちょうど今、Google DeepMind が AlphaFold3 モデルをリリースしました。このモデルは、タンパク質、核酸、小分子、イオン、修飾残基を含む複合体の結合構造予測を実行できます。 AlphaFold3 の精度は、これまでの多くの専用ツール (タンパク質-リガンド相互作用、タンパク質-核酸相互作用、抗体-抗原予測) と比較して大幅に向上しました。これは、単一の統合された深層学習フレームワーク内で、次のことを達成できることを示しています。

CNN と Transformer のハイブリッドモデルを使用してパフォーマンスを向上させる方法 Jan 24, 2024 am 10:33 AM

畳み込みニューラルネットワーク (CNN) と Transformer は、さまざまなタスクで優れたパフォーマンスを示した 2 つの異なる深層学習モデルです。 CNN は主に、画像分類、ターゲット検出、画像セグメンテーションなどのコンピュータービジョンタスクに使用されます。畳み込み演算を通じて画像上の局所的な特徴を抽出し、プーリング演算を通じて特徴の次元削減と空間的不変性を実行します。対照的に、Transformer は主に、機械翻訳、テキスト分類、音声認識などの自然言語処理 (NLP) タスクに使用されます。セルフアテンションメカニズムを使用してシーケンス内の依存関係をモデル化し、従来のリカレントニューラルネットワークにおける逐次計算を回避します。これら 2 つのモデルは異なるタスクに使用されますが、シーケンスモデリングでは類似点があるため、

ポートレートカットアウト推論のための TensorFlow 深層学習フレームワークモデル推論パイプライン Mar 26, 2024 pm 01:00 PM

概要 ModelScope ユーザーがプラットフォームによって提供されるさまざまなモデルを迅速かつ便利に使用できるようにするために、ModelScope 公式モデルの実装と、これらのモデルを推論に使用するために必要なツールを含む、完全に機能する Python ライブラリのセットが提供されます。データの前処理、後処理、効果評価などの機能に関わるコードを提供するとともに、シンプルで使いやすいAPIと豊富な使用例を提供します。このライブラリを呼び出すことで、ユーザーはわずか数行のコードを記述するだけでモデルの推論、トレーニング、評価などのタスクを完了でき、また、これを基に二次開発を迅速に実行して独自の革新的なアイデアを実現することもできます。現在ライブラリによって提供されているアルゴリズムモデルは次のとおりです。

ジェスチャ認識モデルのアルゴリズムと原理を調べる (Python で単純なジェスチャ認識トレーニングモデルを作成する) Jan 24, 2024 pm 05:51 PM

ジェスチャ認識は、コンピュータビジョンの分野における重要な研究分野です。その目的は、ビデオストリームまたは画像シーケンス内の人間の手の動きを解析することによって、ジェスチャーの意味を判断することです。ジェスチャ認識は、ジェスチャ制御のスマートホーム、仮想現実とゲーム、セキュリティ監視などの分野など、幅広い用途に利用できます。この記事では、ジェスチャ認識モデルで使用されるアルゴリズムと原理を紹介し、Python を使用して簡単なジェスチャ認識トレーニングモデルを作成します。ジェスチャ認識モデルで使用されるアルゴリズムと原則ジェスチャ認識モデルで使用されるアルゴリズムと原則は、深層学習に基づくモデル、従来の機械学習モデル、ルールベースの手法、従来の画像処理手法など、多岐にわたります。以下にその原理と特徴を紹介します。 1. 深層学習に基づいた深層学習のモデル化

コンピュータービジョンにおいて Transformer が CNN に代わった理由 Jan 24, 2024 pm 09:24 PM

Transformer と CNN はディープラーニングで一般的に使用されるニューラルネットワークモデルであり、設計思想や適用シナリオが異なります。 Transformer は自然言語処理などのシーケンスデータタスクに適していますが、CNN は主に画像処理などの空間データタスクに使用されます。これらには、さまざまなシナリオやタスクにおいて独自の利点があります。 Transformer は、シーケンスデータを処理するためのニューラルネットワークモデルで、元々は機械翻訳の問題を解決するために提案されました。その中心となるのはセルフアテンションメカニズムであり、入力シーケンス内のさまざまな位置間の関係を計算することで長距離の依存関係を捕捉し、それによってシーケンスデータをより適切に処理します。変圧器モデルはエンコーダによって解決されます

See all articles

球面ディープラーニングを高解像度の入力データにスケーリングする

従来の球面深層学習手法には計算が必要です

球面上の散乱ネットワーク

概要

参考文献

翻訳者紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック