ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要-AI-php.cn

1. 画像セマンティックセグメンテーションネットワーク構造の革新

1.1 FCN ネットワーク

2.1 モデル圧縮に基づくセグメンテーション手法

2.2 符号化-復号化構造のセグメンテーション方法

2.3 注意メカニズムに基づくセグメンテーション手法

2.4 敵対的学習に基づくセグメンテーションネットワーク

2.5 RNN ベースのセグメンテーションモデル

2.6 概要

いくつかの参考文献:

ホームページ

テクノロジー周辺機器

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 07:31 PM

ディープラーニング画像のセグメンテーション

この記事では、画像セマンティックセグメンテーションに CNN を使用する場合のネットワーク構造の革新についてまとめています。これらの革新には主に、新しいニューラルアーキテクチャ (異なる深さ、幅、接続、トポロジー) の設計と、新しいコンポーネントまたはレイヤーの設計が含まれます。前者は既存のコンポーネントを使用して複雑な大規模ネットワークを組み立てますが、後者は基礎となるコンポーネントを設計することを好みます。まず、いくつかの古典的なセマンティックセグメンテーションネットワークとそのイノベーションを紹介し、次に医療画像セグメンテーションの分野におけるネットワーク構造設計のいくつかのアプリケーションを紹介します。

1. 画像セマンティックセグメンテーションネットワーク構造の革新

1.1 FCN ネットワーク

FCN 全体のアーキテクチャ

簡略図FCN ネットワークは、セマンティックセグメンテーションの問題を新しい観点から解決した最初のネットワークであるため、FCN ネットワークは個別にリストされています。ニューラルネットワークに基づく以前の画像セマンティックセグメンテーションネットワークは、分類対象のピクセルを中心とする画像ブロックを使用して、中心ピクセルのラベルを予測しました。ネットワークは一般的に CNN FC 戦略を使用して構築されました。明らかに、この方法では、画像のグローバルコンテキスト情報を利用できません。さらに、ピクセルごとの推論速度は非常に遅いですが、FCN ネットワークは全結合層 FC を放棄し、畳み込み層を使用してネットワークを構築します。転置畳み込みと異なる層の特徴の融合という戦略を通じて、ネットワークは出力は入力画像の予測マスクを直接出力するため、効率的であり、精度が大幅に向上します。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

FCN の異なるレイヤーの機能融合の概略図

イノベーションポイント: フルボリュームプロダクトネットワーク (fc 層を除く)、転置畳み込み deconv (デコンボリューション)、異層特徴マップスキップ接続 (追加)

1.2 符号化構造 (Enconder-decoder)

SegNetFCN ネットワークの考え方は基本的に同じです。エンコーダ部分は VGG16 の最初の 13 層の畳み込みを使用しますが、違いはデコーダ部分のアップサンプリング方法にあります。 FCN は、特徴マップを逆変換して得られた結果を、エンコーダーの対応するサイズの特徴マップに加算することによってアップサンプリング結果を取得しますが、SegNet は、エンコーダー部分の maxpool のインデックスを使用して、デコーダー部分 (原文の説明: デコーダー) をアップサンプリングします。低解像度の特徴入力マップをアップサンプリングします。具体的には、デコーダは、対応するエンコーダの最大プーリングステップで計算されたプーリングインデックスを使用して、非線形アップサンプリングを実行します。)

イノベーションポイント: エンコーダ-デコーダ構造、プールインデックス。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#SegNet ネットワーク

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

# 比較SegNet と FCN の間のアップサンプル方式の

U-Net ネットワークはもともと生物医学画像用に設計されましたが、その 4 グレードのパフォーマンスにより、現在では UNet とその亜種が使用されています。 CV のさまざまなサブフィールドで広く使用されています。 UNet ネットワークは、U チャネルとスキップ接続で構成されます。U チャネルは SegNet の符号化および復号構造に似ています。符号化部分 (縮小パス) は特徴抽出を実行し、コンテキスト情報を取得します。復号部分 (拡張パス) は、 ) グラフのデコード機能を使用してピクセルラベルを予測します。短絡チャネルはモデルの精度を向上させ、勾配消失の問題を解決します。短絡チャネルの特徴マップと上で使用した特徴マップは追加されるのではなく結合されることに注意することが特に重要です (FCN とは異なります)。

革新ポイント

: U字型構造、短絡チャネル(スキップ接続)

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

U-Network

V-Net ネットワーク構造は U-Net に似ていますが、アーキテクチャがスキップ接続を追加し、3D 画像 (ボリューム画像) を処理するために 2D 操作を 3D 操作に置き換える点が異なります。また、Dice などの広く使用されているセグメンテーション指標向けに最適化されています。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#V-Net Network

イノベーションポイント: かなりU-Net ネットワークの 3D バージョン

FC-DenseNet (One Hundred Layers Tiramisu Network)(論文タイトル: The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation) ) ネットワーク構造はDense BlockとUNetアーキテクチャで構成されています。このネットワークの最も単純なバージョンは、下向きに遷移する 2 つのダウンサンプリングパスと上向きに遷移する 2 つのアップサンプリングパスで構成されます。また、ダウンサンプリングパスの特徴マップをアップサンプリングパスの対応する特徴マップに接続するための 2 つの水平スキップ接続も含まれています。アップサンプリングパスとダウンサンプリングパスの接続パターンはまったく同じではありません。ダウンサンプリングパスでは、各密なブロックの外側にスキップスプライシングパスがあり、その結果、特徴マップの数が直線的に増加しますが、アップサンプリングパスでは、そのような操作はありません。 (もう一つ、このネットワークの略称は Dense Unet となりますが、Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal という光音響画像アーティファクト除去に関する論文があります。この記事を引用しているブログを多く見かけました論文内の図はセマンティックセグメンテーションについて説明していますが、これはまったく同じものではありません =_=||、自分で区別できるようにしてください。)

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

##FC-DenseNet (百層ティラミスネットワーク)

イノベーションポイント:

DenseNet と U-Net ネットワークの統合 (観点から)見てください、密な接続は残差構造よりも強力です)

Deeplab シリーズネットワークは、符号化および復号構造に基づいて提案された改良版です。2018 年、DeeplabV3 ネットワークは、 VOC2012 および Cityscapes データセット SOTA レベルに達する優れたパフォーマンス。 DeepLab シリーズには、V1、V2、V3、V3 の 4 つの論文があります。いくつかの論文の核となる内容を簡単に要約します:

1) DeepLabV1: 畳み込みニューラルネットワークと確率グラフモデルの融合: セグメンテーションと位置決めの精度を向上させる CNN CRF;

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要 2) DeepLabV2: ASPP (拡張空間ピラミッドプーリング); CNN CRF

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要 3 ) DeepLabV3: ASPP を改善し、1*1 コンボリューションとグローバル avg プールを追加し、カスケードおよび並列 atrous コンボリューションの効果を比較しました。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#カスケードアトラスコンボリューション

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

Parallel Atrous Convolution (ASPP)

4) DeepLabV3: エンコードおよびデコードアーキテクチャのアイデアを追加し、デコーダモジュールを追加して DeepLabv3 を拡張し、深さ分離可能な畳み込みを ASPP とデコーダに適用します。モジュール; バックボーンとしての Xception を改良しました。

DeepLabV3

一般的に、DeepLab シリーズの主要な貢献: 拡張畳み込み、ASPP、CNN CRF (V1 のみ CRF を使用) V2 の場合、V3 と V3 は深いネットワークを通じて不鮮明なセグメンテーション境界の問題を解決するはずであり、その効果は CRF を追加するよりも優れています)

PSPNet（ピラミッドシーンの解析）ネットワーク) は、さまざまなエリアからのコンテキスト情報を集約することで、グローバルコンテキスト情報を利用するネットワークの機能を向上させます。 SPPNet では、ピラミッドプーリングによって生成されたさまざまなレベルの特徴マップが最終的に平坦化および連結されてから、分類のために完全に接続された層に送信され、画像分類に固定入力サイズを必要とする CNN の制限が排除されます。 PSPNet では、pooling-conv-upsample を使用し、次に結合して特徴マップを取得し、ラベル予測を実行します。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

PSPNet ネットワーク

イノベーションポイント: マルチスケールプーリング複雑なシーンを理解するために、グローバルな画像レベルの事前知識をより適切に活用するための中間アクティベーションマップを調整し、それらを階層的に接続して複数のスケールを組み合わせることで、複雑なシーンを理解するための統合を実現します。シャープネスの損失を防ぎながらアクティベートします。ネットワークは独立した Refine モジュールで構成されており、各 Refine モジュールは 3 つの主要モジュール、つまり Residual Convolutional Unit (RCU)、Multi-Resolution Fusion (MRF)、および Chain Residual Pooling (CRP) で構成されます。全体的な構造は U-Net に似ていますが、ジャンプ接続で新しい結合方法が設計されています (単純な連結ではありません)。個人的には、この構造は実際に独自のネットワーク設計のアイデアとして非常に適していると思います. 他の CV 問題で使用される CNN モジュールを多数追加できますし、全体のフレームワークとして U-Net を使用しても、その効果はそれほど悪くありません。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

イノベーションポイント: Refine モジュール1.3 ネットワーク構造の計算の複雑さを軽減する

セマンティックセグメンテーションネットワークの計算の複雑さを軽減するために、多くの作業が費やされています。深いネットワークの構造を単純化するためのいくつかの方法: テンソル分解、チャネル/ネットワークプルーニング、スパース接続。手動設計の代わりに NAS (Neural Architecture Search) を使用して、モジュールの構造やネットワーク全体を検索するものもありますが、当然ながら、AutoDL に必要な GPU リソースのせいで、多くの人が躊躇するでしょう。したがって、ランダム検索を使用してはるかに小さな ASPP モジュールを検索し、その小さなモジュールに基づいてネットワークモデル全体を構築する人もいます。

軽量ネットワーク設計は業界のコンセンサスです。モバイル展開の場合、各マシンに 2080ti を装備することは不可能です。さらに、消費電力、ストレージ、その他の問題により、ネットワークの普及と応用も制限されます。モデル。しかし、5Gが普及すれば、すべてのデータをクラウド上で処理できるようになり、非常に興味深いものになるでしょう。もちろん、短期的（10年後）に5Gの本格的な展開が実現可能かどうかは分かりません。

1.4 アテンションメカニズムに基づくネットワーク構造

アテンションメカニズムは、次のように定義できます。後続のレイヤー/特徴マップ情報を使用して、入力特徴マップ内で最も判断力のある (または顕著な) ものを選択して特定します。）一部。これは、単純に特徴マップに重み付けする方法と考えることができます (重みはネットワークを通じて計算されます)。重みのさまざまな機能に従って、チャネルアテンションメカニズム (CA) と空間アテンションメカニズム (PA) に分けることができます。。 FPA (Feature Pyramid Attendance) ネットワークは、アテンションメカニズムと空間ピラミッドを組み合わせて、拡張を使用せずにピクセルレベルのラベリングのための正確な特徴を抽出する、アテンションメカニズムに基づくセマンティックセグメンテーションネットワークです。畳み込みおよび人間が設計したデコーダネットワークです。

1.5 敵対的学習に基づくネットワーク構造

Goodfellow らは、2014 年に深い生成モデルを学習するための敵対的手法を提案しました。モデル: データの分布を捉える生成モデル G と、サンプルがトレーニングデータに由来する確率を推定する識別モデル D です。

# G は生成ネットワークであり、ランダムノイズ z (乱数) を受け取り、このノイズを通じて画像を生成します。

# D は識別ネットワークで、画像が正しいかどうかを決定します。本当じゃない"。入力パラメータは x (画像) で、出力 D(x) は x が実際の画像である確率を表します。1 の場合は 100% が実際の画像であることを意味し、出力は 0 です。本物ではありえません。

G のトレーニング手順は、D エラーの確率を最大化することです。任意の関数 G と D の空間 には、G がトレーニングデータの分布を再現し、D=0.5 となるような一意の解が存在することが証明できます。トレーニングプロセス中の生成ネットワーク G の目標は、判別ネットワーク D を欺くために実際の画像を生成しようとすることです。 D の目標は、G によって生成された偽の画像を本物の画像から区別しようとすることです。このように、GとDは動的な「ゲームプロセス」を構成しており、最終的な均衡点がナッシュ均衡点です。 G と D がニューラルネットワークによって定義されている場合、システム全体をバックプロパゲーションでトレーニングできます。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

GAN のネットワーク構造図GAN に触発されて、Luc らはセマンティックセグメンテーションネットワーク (G) と対立を訓練しました。ネットワーク (D)、敵対的ネットワークは、セグメンテーションマップをグランドトゥルースまたはセマンティックセグメンテーションネットワーク (G) から区別します。 G と D は引き続きゲームをプレイして学習し、その損失関数は次のように定義されます:

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#GAN 損失関数

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

元の GAN の損失関数を確認する: GAN の損失関数は、ゼロサムゲームのアイデアを具体化しています。元の GAN の損失関数は次のとおりです。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

損失の計算位置はD(識別器)の出力であり、Dの出力は一般的に偽/真の判定であるため、全体の状況は次のようになります。バイナリクロスエントロピー関数とみなされます。 GAN の損失関数の形式から、トレーニングが 2 つの部分に分割されていることがわかります。

最初の部分は maxD 部分です。これは、トレーニングでは一般に、G (ジェネレーター) を変更せずに最初に D をトレーニングするためです。 D のトレーニングの目標は、偽/真を正しく区別することです。真/偽を表すために 1/0 を使用する場合、最初の項目 E については、入力が実際のデータからサンプリングされているため、D(x) が 1 に近づくことが期待されます。、これは最初のアイテムが大きいです。同様に、2 番目の項目 E 入力は G から生成されたデータをサンプリングするため、D(G(z)) が 0 に近づくことが期待されます。これは、2 番目の項目が再び大きくなることを意味します。つまり、この部分はトレーニングによって全体が大きくなるという期待であり、それがmaxDの意味です。この部分は D のパラメータのみを更新します。

2 番目の部分は D を変更せず (パラメーター更新なし) 維持し、G をトレーニングします。現時点では、2 番目の項目 E のみが役に立ちます。D を混乱させたいので、ここが重要です。 label は 1 に設定されます (偽であることがわかっているので、これは混乱と呼ばれます) D(G(z)) の出力が 1 に近いこと、つまり、この項が小さいほど良いことを望みます。 minGです。もちろん、弁別器はそう簡単に騙せるものではありませんので、このとき弁別器は比較的大きな誤差を出しますその誤差によって G が更新され、G はさらに良くなっていきます今回は騙しませんでしたので、できると思います次回はさらに頑張るだけです (

https://www.cnblogs.com/walter-xh/p/10051634.html から引用)。このとき、Gのパラメータのみが更新されます。

GAN を別の観点から見ると、識別器 (D) は特殊な損失関数 (従来の L1、L2、クロスエントロピーやその他の損失関数とは異なるニューラルネットワークで構成されます) に相当します。

また、GANは特殊な学習方法を持っており、勾配消失やモード崩壊などの問題を抱えていますが(現在は解決する方法があるようです)、その設計思想はまさに世界における偉大な発明です。ディープラーニングの時代。

1.6 概要

深層学習に基づく画像セマンティックセグメンテーションモデルのほとんどは、U-Net などのエンコーダー/デコーダーアーキテクチャに従っています。近年の研究結果では、拡張畳み込みと機能ピラミッドプーリングが U-Net スタイルのネットワークパフォーマンスを向上できることが示されています。セクション 2 では、これらの方法とその変形を医療画像のセグメンテーションにどのように適用できるかをまとめます。

2. 医療画像セグメンテーションにおけるネットワーク構造革新の応用

このセクションでは、2D/3D 医用画像セグメンテーションにおけるネットワーク構造革新の応用に関するいくつかの研究結果を紹介します。

2.1 モデル圧縮に基づくセグメンテーション手法

高解像度の 2D/3D 医療画像 (CT、MRI、病理組織画像など) のリアルタイム処理を実現するために、研究者たちは提案しています。さまざまな圧縮モデルメソッド。 Weng らは、NAS テクノロジーを U-Net ネットワークに適用し、CT、MRI、および超音波画像での臓器/腫瘍のセグメンテーション性能が向上した小規模ネットワークを取得しました。 Brugger 氏は、グループ正規化と Leaky-ReLU (リーキー ReLU 関数) を利用して U-Net アーキテクチャを再設計し、3D 医用画像セグメンテーションのためのネットワークのストレージ効率を向上させました。より少ないパラメータで拡張畳み込みモジュールを設計した人もいます。他のモデル圧縮方法には、重み量子化 (16 ビット、8 ビット、バイナリ量子化)、蒸留、枝刈りなどが含まれます。

2.2 符号化-復号化構造のセグメンテーション方法

Drozdal は、画像をセグメンテーションネットワークに入力する前に、単純な CNN を適用して元の入力画像を正規化し、画像のセグメンテーション精度を向上させる方法を提案しました。シングルトン顕微鏡画像セグメンテーション、肝臓 CT、前立腺 MRI。 Gu 氏は、バックボーンネットワークで拡張畳み込みを使用してコンテキスト情報を保持する方法を提案しました。 Vorontsov は、ROI のある画像を ROI のない画像に変換し (たとえば、腫瘍のある画像は腫瘍のない健康な画像に変換され)、その後モデルによって除去された腫瘍が新しい健康な画像に追加されるグラフツーグラフネットワークフレームワークを提案しました。 . 、オブジェクトの詳細な構造を取得します。 Zhou らは、U-Net ネットワークのスキップ接続再配線の方法を提案し、胸部低線量 CT スキャンでの結節のセグメンテーション、顕微鏡画像での核のセグメンテーション、腹部 CT スキャンでの肝臓のセグメンテーション、および結腸内視鏡検査でそれを実行し、パフォーマンスがテストされました。検査ビデオのポリープ分割タスクについて。 Goyal は DeepLabV3 をダーモスコピーのカラー画像セグメンテーションに適用して、皮膚病変領域を抽出しました。

2.3 注意メカニズムに基づくセグメンテーション手法

Nie は、ベースラインモデル (V-Net および FCN) よりも正確に前立腺をセグメンテーションできる注意モデルを提案しました。 SinHa は、MRI 画像における腹部臓器セグメンテーションのための多層注意メカニズムに基づくネットワークを提案しました。 Qin et al.は、3D 医療画像の詳細を保存するために拡張畳み込みモジュールを提案しました。注意メカニズムに基づいた血液画像のセグメンテーションに関する論文は他にもたくさんあります。

2.4 敵対的学習に基づくセグメンテーションネットワーク

Khosravan は、CT スキャンからの膵臓セグメンテーションのための敵対的トレーニングネットワークを提案しました。 Son は、網膜画像のセグメンテーションに敵対的生成ネットワークを使用しています。 Xue は、敵対的生成フレームワークのセグメンテーションネットワークとして完全畳み込みネットワークを使用して、MRI 画像から脳腫瘍をセグメント化します。医用画像のセグメンテーションの問題に GAN を適用して成功した論文は他にもあるため、一つずつ列挙することはしません。

2.5 RNN ベースのセグメンテーションモデル

リカレントニューラルネットワーク (RNN) は、主にシーケンスデータの処理に使用されます。長短期記憶ネットワーク (LSTM) は、RNN の改良版です。LSTM は、セルフループ（セルフループ）によりグラジエント流を長時間維持することが可能です。医用画像解析の分野では、RNN は画像シーケンスの時間依存性をモデル化するために使用されます。 Binらは、完全畳み込みニューラルネットワークとRNNを統合し、時間次元の情報をセグメンテーションタスクに組み込む画像シーケンスセグメンテーションアルゴリズムを提案した。 Gaoらは、CNNとLSTMを使用して脳MRIスライスシーケンスの時間的関係をモデル化し、4D画像のセグメンテーションパフォーマンスを向上させた。 Liらは、最初にU-Netを使用して初期セグメンテーション確率マップを取得し、次にLSTMを使用して3D CT画像から膵臓をセグメント化することで、セグメンテーションのパフォーマンスを向上させました。 RNN を医用画像のセグメンテーションに使用する論文は他にも多数あるため、一つずつ紹介することはしません。

2.6 概要

コンテンツのこの部分は主に医療画像セグメンテーションにおけるセグメンテーションアルゴリズムの適用に関するものであるため、革新的な点はそれほど多くありません。主にさまざまな形式の適用に関するものです ( CT または RGB、ピクセル範囲、画像解像度など) とさまざまな部分のデータの特性 (ノイズ、オブジェクトの形状など) を考慮して、入力データの形式と特性に適応させるために、さまざまなデータに合わせてクラシックネットワークを改善する必要があります。これにより、セグメンテーションタスクをより適切に完了できるようになります。ディープラーニングはブラックボックスですが、モデル全体の設計には従うべきルールがあり、最適なセグメンテーションパフォーマンスを達成するために、特定のセグメンテーション問題に基づいて、どのような戦略がどのような問題を解決し、どのような問題を引き起こすかを選択できます。

いくつかの参考文献:

1.自然画像と医療画像のディープセマンティックセグメンテーション: レビュー

2.NAS-Unet: ニューラル医用画像セグメンテーションのアーキテクチャ検索.IEEE Access, 7:44247–44257, 2019.

3.画像間の変換による弱い監視によるセグメンテーションの強化. arXiv プレプリント arXiv: 1904.01636 、2019

4.医療画像セグメンテーションのためのマルチスケールガイド付きアテンション。arXiv プレプリント arXiv:1906.02849,2019.

5.SegAN :医用画像セグメンテーションのためのマルチスケール L1 損失を備えた敵対的ネットワーク

6.共同 4D 医用画像セグメンテーションのための完全に畳み込み構造の LSTM ネットワーク2018 IEEE7 https://www.cnblogs 。 com/walter-xh/p/10051634.html

以上がディープラーニング画像セグメンテーション: ネットワーク構造設計の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7461

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Python での感情分析に BERT を使用する方法と手順 Jan 22, 2024 pm 04:24 PM

BERT は、2018 年に Google によって提案された事前トレーニング済みの深層学習言語モデルです。正式名は BidirectionEncoderRepresentationsfromTransformers で、Transformer アーキテクチャに基づいており、双方向エンコードの特性を備えています。従来の一方向コーディングモデルと比較して、BERT はテキストを処理するときにコンテキスト情報を同時に考慮できるため、自然言語処理タスクで優れたパフォーマンスを発揮します。その双方向性により、BERT は文内の意味関係をより深く理解できるようになり、それによってモデルの表現能力が向上します。事前トレーニングおよび微調整方法を通じて、BERT は感情分析、命名などのさまざまな自然言語処理タスクに使用できます。

一般的に使用される AI 活性化関数の分析: Sigmoid、Tanh、ReLU、Softmax のディープラーニングの実践 Dec 28, 2023 pm 11:35 PM

活性化関数は深層学習において重要な役割を果たしており、ニューラルネットワークに非線形特性を導入することで、ネットワークが複雑な入出力関係をより適切に学習し、シミュレートできるようになります。活性化関数の正しい選択と使用は、ニューラルネットワークのパフォーマンスとトレーニング結果に重要な影響を与えます。この記事では、よく使用される 4 つの活性化関数 (Sigmoid、Tanh、ReLU、Softmax) について、導入、使用シナリオ、利点、欠点と最適化ソリューションアクティベーション関数を包括的に理解できるように、次元について説明します。 1. シグモイド関数シグモイド関数の公式の概要: シグモイド関数は、任意の実数を 0 と 1 の間にマッピングできる一般的に使用される非線形関数です。通常は統一するために使用されます。

ORB-SLAM3を超えて！ SL-SLAM: 低照度、重度のジッター、弱いテクスチャのシーンはすべて処理されます。 May 30, 2024 am 09:35 AM

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッドビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

潜在空間の埋め込み: 説明とデモンストレーション Jan 22, 2024 pm 05:30 PM

潜在空間埋め込み (LatentSpaceEmbedding) は、高次元データを低次元空間にマッピングするプロセスです。機械学習と深層学習の分野では、潜在空間埋め込みは通常、高次元の入力データを低次元のベクトル表現のセットにマッピングするニューラルネットワークモデルです。このベクトルのセットは、「潜在ベクトル」または「潜在ベクトル」と呼ばれることがよくあります。エンコーディング」。潜在空間埋め込みの目的は、データ内の重要な特徴をキャプチャし、それらをより簡潔でわかりやすい形式で表現することです。潜在空間埋め込みを通じて、低次元空間でデータの視覚化、分類、クラスタリングなどの操作を実行し、データをよりよく理解して活用できます。潜在空間埋め込みは、画像生成、特徴抽出、次元削減など、多くの分野で幅広い用途があります。潜在空間埋め込みがメイン

1 つの記事で理解: AI、機械学習、ディープラーニングのつながりと違い Mar 02, 2024 am 11:19 AM

今日の急速な技術変化の波の中で、人工知能 (AI)、機械学習 (ML)、および深層学習 (DL) は輝かしい星のようなもので、情報技術の新しい波をリードしています。これら 3 つの単語は、さまざまな最先端の議論や実践で頻繁に登場しますが、この分野に慣れていない多くの探検家にとって、その具体的な意味や内部のつながりはまだ謎に包まれているかもしれません。そこで、まずはこの写真を見てみましょう。ディープラーニング、機械学習、人工知能の間には密接な相関関係があり、進歩的な関係があることがわかります。ディープラーニングは機械学習の特定の分野であり、機械学習

超強い！深層学習アルゴリズムのトップ 10! Mar 15, 2024 pm 03:46 PM

2006 年にディープラーニングの概念が提案されてから、ほぼ 20 年が経過しました。ディープラーニングは、人工知能分野における革命として、多くの影響力のあるアルゴリズムを生み出してきました。では、ディープラーニングのトップ 10 アルゴリズムは何だと思いますか?私の考えでは、ディープラーニングのトップアルゴリズムは次のとおりで、いずれもイノベーション、アプリケーションの価値、影響力の点で重要な位置を占めています。 1. ディープニューラルネットワーク (DNN) の背景: ディープニューラルネットワーク (DNN) は、多層パーセプトロンとも呼ばれ、最も一般的なディープラーニングアルゴリズムです。最初に発明されたときは、コンピューティング能力のボトルネックのため疑問視されていました。最近まで長年にわたる計算能力、データの爆発的な増加によって画期的な進歩がもたらされました。 DNN は、複数の隠れ層を含むニューラルネットワークモデルです。このモデルでは、各層が入力を次の層に渡し、

CNN と Transformer のハイブリッドモデルを使用してパフォーマンスを向上させる方法 Jan 24, 2024 am 10:33 AM

畳み込みニューラルネットワーク (CNN) と Transformer は、さまざまなタスクで優れたパフォーマンスを示した 2 つの異なる深層学習モデルです。 CNN は主に、画像分類、ターゲット検出、画像セグメンテーションなどのコンピュータービジョンタスクに使用されます。畳み込み演算を通じて画像上の局所的な特徴を抽出し、プーリング演算を通じて特徴の次元削減と空間的不変性を実行します。対照的に、Transformer は主に、機械翻訳、テキスト分類、音声認識などの自然言語処理 (NLP) タスクに使用されます。セルフアテンションメカニズムを使用してシーケンス内の依存関係をモデル化し、従来のリカレントニューラルネットワークにおける逐次計算を回避します。これら 2 つのモデルは異なるタスクに使用されますが、シーケンスモデリングでは類似点があるため、

RMSprop アルゴリズムの改善 Jan 22, 2024 pm 05:18 PM

RMSprop は、ニューラルネットワークの重みを更新するために広く使用されているオプティマイザーです。これは、2012 年に Geoffrey Hinton らによって提案され、Adam オプティマイザーの前身です。 RMSprop オプティマイザの登場は主に、勾配の消失や勾配の爆発など、SGD 勾配降下法アルゴリズムで発生するいくつかの問題を解決することを目的としています。 RMSprop オプティマイザーを使用すると、学習率を効果的に調整し、重みを適応的に更新できるため、深層学習モデルのトレーニング効果が向上します。 RMSprop オプティマイザの中心となるアイデアは、異なるタイムステップでの勾配が重みの更新に異なる影響を与えるように、勾配の加重平均を実行することです。具体的には、RMSprop は各パラメータの 2 乗を計算します。

See all articles

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

1. 画像セマンティック セグメンテーション ネットワーク構造の革新

1.1 FCN ネットワーク

2.1 モデル圧縮に基づくセグメンテーション手法

2.2 符号化-復号化構造のセグメンテーション方法

2.3 注意メカニズムに基づくセグメンテーション手法

2.4 敵対的学習に基づくセグメンテーション ネットワーク

2.5 RNN ベースのセグメンテーション モデル

2.6 概要

いくつかの参考文献:

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

1. 画像セマンティックセグメンテーションネットワーク構造の革新

2.4 敵対的学習に基づくセグメンテーションネットワーク

2.5 RNN ベースのセグメンテーションモデル