この記事では、画像セマンティック セグメンテーションに CNN を使用する場合のネットワーク構造の革新についてまとめています。これらの革新には主に、新しいニューラル アーキテクチャ (異なる深さ、幅、接続、トポロジー) の設計と、新しいコンポーネントまたはレイヤーの設計が含まれます。前者は既存のコンポーネントを使用して複雑な大規模ネットワークを組み立てますが、後者は基礎となるコンポーネントを設計することを好みます。まず、いくつかの古典的なセマンティック セグメンテーション ネットワークとそのイノベーションを紹介し、次に医療画像セグメンテーションの分野におけるネットワーク構造設計のいくつかのアプリケーションを紹介します。
FCN 全体のアーキテクチャ
簡略図FCN ネットワークは、セマンティック セグメンテーションの問題を新しい観点から解決した最初のネットワークであるため、FCN ネットワークは個別にリストされています。ニューラル ネットワークに基づく以前の画像セマンティック セグメンテーション ネットワークは、分類対象のピクセルを中心とする画像ブロックを使用して、中心ピクセルのラベルを予測しました。ネットワークは一般的に CNN FC 戦略を使用して構築されました。明らかに、この方法では、画像のグローバル コンテキスト情報を利用できません。さらに、ピクセルごとの推論速度は非常に遅いですが、FCN ネットワークは全結合層 FC を放棄し、畳み込み層を使用してネットワークを構築します。転置畳み込みと異なる層の特徴の融合という戦略を通じて、ネットワークは出力は入力画像の予測マスクを直接出力するため、効率的であり、精度が大幅に向上します。
FCN の異なるレイヤーの機能融合の概略図
イノベーション ポイント: フルボリュームプロダクトネットワーク (fc 層を除く)、転置畳み込み deconv (デコンボリューション)、異層特徴マップスキップ接続 (追加)
1.2 符号化構造 (Enconder-decoder)イノベーションポイント: エンコーダ-デコーダ構造、プールインデックス。
#SegNet ネットワーク
# 比較SegNet と FCN の間のアップサンプル方式のU-Net ネットワークはもともと生物医学画像用に設計されましたが、その 4 グレードのパフォーマンスにより、現在では UNet とその亜種が使用されています。 CV のさまざまなサブフィールドで広く使用されています。 UNet ネットワークは、U チャネルとスキップ接続で構成されます。U チャネルは SegNet の符号化および復号構造に似ています。符号化部分 (縮小パス) は特徴抽出を実行し、コンテキスト情報を取得します。復号部分 (拡張パス) は、 ) グラフのデコード機能を使用してピクセル ラベルを予測します。短絡チャネルはモデルの精度を向上させ、勾配消失の問題を解決します。短絡チャネルの特徴マップと上で使用した特徴マップは追加されるのではなく結合されることに注意することが特に重要です (FCN とは異なります)。
U-Network
#V-Net Network
イノベーションポイント: かなりU-Net ネットワークの 3D バージョン
##FC-DenseNet (百層ティラミスネットワーク)
イノベーションポイント:DenseNet と U-Net ネットワークの統合 (観点から)見てください、密な接続は残差構造よりも強力です)
Deeplab シリーズ ネットワークは、符号化および復号構造に基づいて提案された改良版です。2018 年、DeeplabV3 ネットワークは、 VOC2012 および Cityscapes データ セット SOTA レベルに達する優れたパフォーマンス。 DeepLab シリーズには、V1、V2、V3、V3 の 4 つの論文があります。いくつかの論文の核となる内容を簡単に要約します:2) DeepLabV2: ASPP (拡張空間ピラミッド プーリング); CNN CRF
3 ) DeepLabV3: ASPP を改善し、1*1 コンボリューションとグローバル avg プールを追加し、カスケードおよび並列 atrous コンボリューションの効果を比較しました。
#カスケード アトラス コンボリューション
Parallel Atrous Convolution (ASPP)
4) DeepLabV3: エンコードおよびデコード アーキテクチャのアイデアを追加し、デコーダ モジュールを追加して DeepLabv3 を拡張し、深さ分離可能な畳み込みを ASPP とデコーダに適用します。モジュール; バックボーンとしての Xception を改良しました。
DeepLabV3
一般的に、DeepLab シリーズの主要な貢献: 拡張畳み込み、ASPP、CNN CRF (V1 のみ CRF を使用) V2 の場合、V3 と V3 は深いネットワークを通じて不鮮明なセグメンテーション境界の問題を解決するはずであり、その効果は CRF を追加するよりも優れています)
PSPNet ネットワーク
イノベーション ポイント: マルチスケール プーリング複雑なシーンを理解するために、グローバルな画像レベルの事前知識をより適切に活用するための中間アクティベーション マップを調整し、それらを階層的に接続して複数のスケールを組み合わせることで、複雑なシーンを理解するための統合を実現します。シャープネスの損失を防ぎながらアクティベートします。ネットワークは独立した Refine モジュールで構成されており、各 Refine モジュールは 3 つの主要モジュール、つまり Residual Convolutional Unit (RCU)、Multi-Resolution Fusion (MRF)、および Chain Residual Pooling (CRP) で構成されます。全体的な構造は U-Net に似ていますが、ジャンプ接続で新しい結合方法が設計されています (単純な連結ではありません)。個人的には、この構造は実際に独自のネットワーク設計のアイデアとして非常に適していると思います. 他の CV 問題で使用される CNN モジュールを多数追加できますし、全体のフレームワークとして U-Net を使用しても、その効果はそれほど悪くありません。
イノベーション ポイント: Refine モジュール1.3 ネットワーク構造の計算の複雑さを軽減する
セマンティック セグメンテーション ネットワークの計算の複雑さを軽減するために、多くの作業が費やされています。深いネットワークの構造を単純化するためのいくつかの方法: テンソル分解、チャネル/ネットワーク プルーニング、スパース接続。手動設計の代わりに NAS (Neural Architecture Search) を使用して、モジュールの構造やネットワーク全体を検索するものもありますが、当然ながら、AutoDL に必要な GPU リソースのせいで、多くの人が躊躇するでしょう。したがって、ランダム検索を使用してはるかに小さな ASPP モジュールを検索し、その小さなモジュールに基づいてネットワーク モデル全体を構築する人もいます。軽量ネットワーク設計は業界のコンセンサスです。モバイル展開の場合、各マシンに 2080ti を装備することは不可能です。さらに、消費電力、ストレージ、その他の問題により、ネットワークの普及と応用も制限されます。モデル。しかし、5Gが普及すれば、すべてのデータをクラウド上で処理できるようになり、非常に興味深いものになるでしょう。もちろん、短期的(10年後)に5Gの本格的な展開が実現可能かどうかは分かりません。
1.4 アテンション メカニズムに基づくネットワーク構造アテンション メカニズムは、次のように定義できます。後続のレイヤー/特徴マップ情報を使用して、入力特徴マップ内で最も判断力のある (または顕著な) ものを選択して特定します。 )一部。これは、単純に特徴マップに重み付けする方法と考えることができます (重みはネットワークを通じて計算されます)。重みのさまざまな機能に従って、チャネル アテンション メカニズム (CA) と空間アテンション メカニズム (PA) に分けることができます。 。 FPA (Feature Pyramid Attendance) ネットワークは、アテンション メカニズムと空間ピラミッドを組み合わせて、拡張を使用せずにピクセル レベルのラベリングのための正確な特徴を抽出する、アテンション メカニズムに基づくセマンティック セグメンテーション ネットワークです。畳み込みおよび人間が設計したデコーダ ネットワークです。 1.5 敵対的学習に基づくネットワーク構造Goodfellow らは、2014 年に深い生成モデルを学習するための敵対的手法を提案しました。モデル: データの分布を捉える生成モデル G と、サンプルがトレーニング データに由来する確率を推定する識別モデル D です。 # G は生成ネットワークであり、ランダム ノイズ z (乱数) を受け取り、このノイズを通じて画像を生成します。 # D は識別ネットワークで、画像が正しいかどうかを決定します。本当じゃない"。入力パラメータは x (画像) で、出力 D(x) は x が実際の画像である確率を表します。1 の場合は 100% が実際の画像であることを意味し、出力は 0 です。本物ではありえません。G のトレーニング手順は、D エラーの確率を最大化することです。任意の関数 G と D の空間 には、G がトレーニング データの分布を再現し、D=0.5 となるような一意の解が存在することが証明できます。トレーニング プロセス中の生成ネットワーク G の目標は、判別ネットワーク D を欺くために実際の画像を生成しようとすることです。 D の目標は、G によって生成された偽の画像を本物の画像から区別しようとすることです。このように、GとDは動的な「ゲームプロセス」を構成しており、最終的な均衡点がナッシュ均衡点です。 G と D がニューラル ネットワークによって定義されている場合、システム全体をバックプロパゲーションでトレーニングできます。
GAN のネットワーク構造図GAN に触発されて、Luc らはセマンティック セグメンテーション ネットワーク (G) と対立を訓練しました。ネットワーク (D)、敵対的ネットワークは、セグメンテーション マップをグランド トゥルースまたはセマンティック セグメンテーション ネットワーク (G) から区別します。 G と D は引き続きゲームをプレイして学習し、その損失関数は次のように定義されます:
#GAN 損失関数
元の GAN の損失関数を確認する: GAN の損失関数は、ゼロサム ゲームのアイデアを具体化しています。元の GAN の損失関数は次のとおりです。損失の計算位置はD(識別器)の出力であり、Dの出力は一般的に偽/真の判定であるため、全体の状況は次のようになります。バイナリクロスエントロピー関数とみなされます。 GAN の損失関数の形式から、トレーニングが 2 つの部分に分割されていることがわかります。 最初の部分は maxD 部分です。これは、トレーニングでは一般に、G (ジェネレーター) を変更せずに最初に D をトレーニングするためです。 D のトレーニングの目標は、偽/真を正しく区別することです。真/偽を表すために 1/0 を使用する場合、最初の項目 E については、入力が実際のデータからサンプリングされているため、D(x) が 1 に近づくことが期待されます。 、これは最初のアイテムが大きいです。同様に、2 番目の項目 E 入力は G から生成されたデータをサンプリングするため、D(G(z)) が 0 に近づくことが期待されます。これは、2 番目の項目が再び大きくなることを意味します。つまり、この部分はトレーニングによって全体が大きくなるという期待であり、それがmaxDの意味です。この部分は D のパラメータのみを更新します。 2 番目の部分は D を変更せず (パラメーター更新なし) 維持し、G をトレーニングします。現時点では、2 番目の項目 E のみが役に立ちます。D を混乱させたいので、ここが重要です。 label は 1 に設定されます (偽であることがわかっているので、これは混乱と呼ばれます) D(G(z)) の出力が 1 に近いこと、つまり、この項が小さいほど良いことを望みます。 minGです。もちろん、弁別器はそう簡単に騙せるものではありませんので、このとき弁別器は比較的大きな誤差を出します その誤差によって G が更新され、G はさらに良くなっていきます 今回は騙しませんでしたので、できると思います次回はさらに頑張るだけです (
https://www.cnblogs.com/walter-xh/p/10051634.html から引用)。このとき、Gのパラメータのみが更新されます。
GAN を別の観点から見ると、識別器 (D) は特殊な損失関数 (従来の L1、L2、クロスエントロピーやその他の損失関数とは異なるニューラル ネットワークで構成されます) に相当します。 また、GANは特殊な学習方法を持っており、勾配消失やモード崩壊などの問題を抱えていますが(現在は解決する方法があるようです)、その設計思想はまさに世界における偉大な発明です。ディープラーニングの時代。 1.6 概要 深層学習に基づく画像セマンティック セグメンテーション モデルのほとんどは、U-Net などのエンコーダー/デコーダー アーキテクチャに従っています。近年の研究結果では、拡張畳み込みと機能ピラミッド プーリングが U-Net スタイルのネットワーク パフォーマンスを向上できることが示されています。セクション 2 では、これらの方法とその変形を医療画像のセグメンテーションにどのように適用できるかをまとめます。 2. 医療画像セグメンテーションにおけるネットワーク構造革新の応用このセクションでは、2D/3D 医用画像セグメンテーションにおけるネットワーク構造革新の応用に関するいくつかの研究結果を紹介します。高解像度の 2D/3D 医療画像 (CT、MRI、病理組織画像など) のリアルタイム処理を実現するために、研究者たちは提案しています。さまざまな圧縮モデルメソッド。 Weng らは、NAS テクノロジーを U-Net ネットワークに適用し、CT、MRI、および超音波画像での臓器/腫瘍のセグメンテーション性能が向上した小規模ネットワークを取得しました。 Brugger 氏は、グループ正規化と Leaky-ReLU (リーキー ReLU 関数) を利用して U-Net アーキテクチャを再設計し、3D 医用画像セグメンテーションのためのネットワークのストレージ効率を向上させました。より少ないパラメータで拡張畳み込みモジュールを設計した人もいます。他のモデル圧縮方法には、重み量子化 (16 ビット、8 ビット、バイナリ量子化)、蒸留、枝刈りなどが含まれます。
Drozdal は、画像をセグメンテーション ネットワークに入力する前に、単純な CNN を適用して元の入力画像を正規化し、画像のセグメンテーション精度を向上させる方法を提案しました。シングルトン顕微鏡画像セグメンテーション、肝臓 CT、前立腺 MRI。 Gu 氏は、バックボーン ネットワークで拡張畳み込みを使用してコンテキスト情報を保持する方法を提案しました。 Vorontsov は、ROI のある画像を ROI のない画像に変換し (たとえば、腫瘍のある画像は腫瘍のない健康な画像に変換され)、その後モデルによって除去された腫瘍が新しい健康な画像に追加されるグラフツーグラフ ネットワーク フレームワークを提案しました。 . 、オブジェクトの詳細な構造を取得します。 Zhou らは、U-Net ネットワークのスキップ接続再配線の方法を提案し、胸部低線量 CT スキャンでの結節のセグメンテーション、顕微鏡画像での核のセグメンテーション、腹部 CT スキャンでの肝臓のセグメンテーション、および結腸内視鏡検査でそれを実行し、パフォーマンスがテストされました。検査ビデオのポリープ分割タスクについて。 Goyal は DeepLabV3 をダーモスコピーのカラー画像セグメンテーションに適用して、皮膚病変領域を抽出しました。
Nie は、ベースライン モデル (V-Net および FCN) よりも正確に前立腺をセグメンテーションできる注意モデルを提案しました。 SinHa は、MRI 画像における腹部臓器セグメンテーションのための多層注意メカニズムに基づくネットワークを提案しました。 Qin et al.は、3D 医療画像の詳細を保存するために拡張畳み込みモジュールを提案しました。注意メカニズムに基づいた血液画像のセグメンテーションに関する論文は他にもたくさんあります。
Khosravan は、CT スキャンからの膵臓セグメンテーションのための敵対的トレーニング ネットワークを提案しました。 Son は、網膜画像のセグメンテーションに敵対的生成ネットワークを使用しています。 Xue は、敵対的生成フレームワークのセグメンテーション ネットワークとして完全畳み込みネットワークを使用して、MRI 画像から脳腫瘍をセグメント化します。医用画像のセグメンテーションの問題に GAN を適用して成功した論文は他にもあるため、一つずつ列挙することはしません。
リカレント ニューラル ネットワーク (RNN) は、主にシーケンス データの処理に使用されます。長短期記憶ネットワーク (LSTM) は、RNN の改良版です。LSTM は、セルフループ(セルフループ)によりグラジエント流を長時間維持することが可能です。医用画像解析の分野では、RNN は画像シーケンスの時間依存性をモデル化するために使用されます。 Binらは、完全畳み込みニューラルネットワークとRNNを統合し、時間次元の情報をセグメンテーションタスクに組み込む画像シーケンスセグメンテーションアルゴリズムを提案した。 Gaoらは、CNNとLSTMを使用して脳MRIスライスシーケンスの時間的関係をモデル化し、4D画像のセグメンテーションパフォーマンスを向上させた。 Liらは、最初にU-Netを使用して初期セグメンテーション確率マップを取得し、次にLSTMを使用して3D CT画像から膵臓をセグメント化することで、セグメンテーションのパフォーマンスを向上させました。 RNN を医用画像のセグメンテーションに使用する論文は他にも多数あるため、一つずつ紹介することはしません。
コンテンツのこの部分は主に医療画像セグメンテーションにおけるセグメンテーション アルゴリズムの適用に関するものであるため、革新的な点はそれほど多くありません。主にさまざまな形式の適用に関するものです ( CT または RGB、ピクセル範囲、画像解像度など) とさまざまな部分のデータの特性 (ノイズ、オブジェクトの形状など) を考慮して、入力データの形式と特性に適応させるために、さまざまなデータに合わせてクラシック ネットワークを改善する必要があります。これにより、セグメンテーション タスクをより適切に完了できるようになります。ディープ ラーニングはブラック ボックスですが、モデル全体の設計には従うべきルールがあり、最適なセグメンテーション パフォーマンスを達成するために、特定のセグメンテーション問題に基づいて、どのような戦略がどのような問題を解決し、どのような問題を引き起こすかを選択できます。
1.自然画像と医療画像のディープ セマンティック セグメンテーション: レビュー
2.NAS-Unet: ニューラル医用画像セグメンテーションのアーキテクチャ検索.IEEE Access, 7:44247–44257, 2019.
3.画像間の変換による弱い監視によるセグメンテーションの強化. arXiv プレプリント arXiv: 1904.01636 、2019
4.医療画像セグメンテーションのためのマルチスケール ガイド付きアテンション。arXiv プレプリント arXiv:1906.02849,2019.
5.SegAN :医用画像セグメンテーションのためのマルチスケール L1 損失を備えた敵対的ネットワーク
6.共同 4D 医用画像セグメンテーションのための完全に畳み込み構造の LSTM ネットワーク2018 IEEE7 https://www.cnblogs 。 com/walter-xh/p/10051634.html
以上がディープラーニング画像セグメンテーション: ネットワーク構造設計の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。