浅い特徴と深い特徴の組み合わせの実用化例
ディープラーニングはコンピュータービジョンの分野で大きな成功を収めており、重要な進歩の 1 つは画像分類にディープ畳み込みニューラル ネットワーク (CNN) を使用することです。ただし、ディープ CNN は通常、大量のラベル付きデータとコンピューティング リソースを必要とします。計算リソースとラベル付きデータの需要を削減するために、研究者は、浅い特徴と深い特徴を融合して画像分類パフォーマンスを向上させる方法の研究を開始しました。この融合手法は、浅い特徴の高い計算効率と深い特徴の強力な表現能力を活用できます。この 2 つを組み合わせることで、高い分類精度を維持しながら、計算コストとデータのラベル付け要件を削減できます。この方法は、データ量が少ない場合やコンピューティング リソースが限られているアプリケーション シナリオでは特に重要です。浅い特徴と深い特徴の融合方法を徹底的に研究することで、画像分類アルゴリズムのパフォーマンスをさらに向上させ、コンピュータービジョン分野の研究と応用にさらなるブレークスルーをもたらすことができます。
一般的な方法は、カスケード CNN モデルを使用することです。最初の CNN モデルは浅い特徴を抽出するために使用され、2 番目の CNN モデルは深い特徴を抽出するために使用され、最後に出力が2 つのモデルのうちの 1 つは、分類結果の精度を向上させるために連結されます。
これは、カスケード CNN モデルを使用して手書きの数字を認識する例です。このモデルは MNIST データセットを使用します。これには 60,000 個のトレーニング画像と 10,000 個のテスト画像が含まれており、各画像サイズは 28×28 ピクセルです。
まず、モデルのアーキテクチャを定義します。特徴を抽出するために 2 つの CNN モデルを使用します。最初の CNN モデルには、浅い特徴を抽出するための 2 つの畳み込み層と最大プーリング層が含まれています。 2 番目の CNN モデルには、深い特徴を抽出するための 3 つの畳み込み層と最大プーリング層が含まれています。次に、2 つのモデルの出力を連結し、分類のために 2 つの完全に接続された層を追加します。このようなアーキテクチャでは、豊富な特徴を抽出し、より適切な分類タスクを実行できます。
import tensorflow as tf from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense, Concatenate # Define shallow CNN model shallow_input = Input(shape=(28, 28, 1)) shallow_conv1 = Conv2D(32, (3, 3), activation='relu', padding='same')(shallow_input) shallow_pool1 = MaxPooling2D((2, 2))(shallow_conv1) shallow_conv2 = Conv2D(64, (3, 3), activation='relu', padding='same')(shallow_pool1) shallow_pool2 = MaxPooling2D((2, 2))(shallow_conv2) shallow_flat = Flatten()(shallow_pool2) shallow_output = Dense(128, activation='relu')(shallow_flat) # Define deep CNN model deep_input = Input(shape=(28, 28, 1)) deep_conv1 = Conv2D(32, (3, 3), activation='relu', padding='same')(deep_input) deep_pool1 = MaxPooling2D((2, 2))(deep_conv1) deep_conv2 = Conv2D(64, (3, 3), activation='relu', padding='same')(deep_pool1) deep_pool2 = MaxPooling2D((2, 2))(deep_conv2) deep_conv3 = Conv2D(128, (3, 3), activation='relu', padding='same')(deep_pool2) deep_pool3 = MaxPooling2D((2, 2))(deep_conv3) deep_flat = Flatten()(deep_pool3) deep_output = Dense(256, activation='relu')(deep_flat) # Concatenate shallow and deep models concatenate = Concatenate()([shallow_output, deep_output]) output = Dense(10, activation='softmax')(concatenate) # Define the model model = tf.keras.Model(inputs=[shallow_input, deep_input], outputs=output)
モデルはコンパイルされ、トレーニングされます。 MNIST データセットはマルチクラス分類問題であるため、クロスエントロピー損失関数と Adam オプティマイザーを使用してモデルをコンパイルします。モデルは、各エポックに 128 のバッチを使用して、100 エポックのトレーニング セットでトレーニングされます。
# Compile the model model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) # Train the model model.fit([x_train, x_train], y_train, batch_size=128, epochs=100, verbose=1, validation_data=([x_test, x_test], y_test))
最後に、テスト セットでモデルのパフォーマンスを評価します。この例では、カスケード CNN モデルのテスト精度は 99.2% で、これは単一の CNN モデルでトレーニングされたテスト精度よりも約 0.5% 高く、浅い特徴と深い特徴の融合により画像のパフォーマンスが実際に向上できることを示しています。分類。
つまり、浅い特徴と深い特徴の融合は、画像分類のパフォーマンスを向上させる効果的な方法です。この例では、カスケード CNN モデルを使用して手書き数字を認識する方法を示します。最初の CNN モデルは浅い特徴を抽出し、2 番目の CNN モデルは深い特徴を抽出し、分類のために 2 つのモデルの出力が連結されます。この方法は、他の多くの画像分類タスクでも広く使用されています。
以上が浅い特徴と深い特徴の組み合わせの実用化例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

古い写真の修復は、人工知能テクノロジーを使用して古い写真を修復、強化、改善する方法です。このテクノロジーは、コンピューター ビジョンと機械学習アルゴリズムを使用して、古い写真の損傷や欠陥を自動的に特定して修復し、写真をより鮮明に、より自然に、より現実的に見せることができます。古い写真の復元の技術原則には、主に次の側面が含まれます: 1. 画像のノイズ除去と強化 古い写真を復元する場合、最初にノイズ除去と強化を行う必要があります。平均値フィルタリング、ガウス フィルタリング、バイラテラル フィルタリングなどの画像処理アルゴリズムとフィルタを使用して、ノイズやカラー スポットの問題を解決し、写真の品質を向上させることができます。 2. 画像の修復と修復 古い写真には、傷、ひび割れ、色あせなどの欠陥や損傷がある場合があります。これらの問題は、画像の復元および修復アルゴリズムによって解決できます。

今日の急速な技術変化の波の中で、人工知能 (AI)、機械学習 (ML)、および深層学習 (DL) は輝かしい星のようなもので、情報技術の新しい波をリードしています。これら 3 つの単語は、さまざまな最先端の議論や実践で頻繁に登場しますが、この分野に慣れていない多くの探検家にとって、その具体的な意味や内部のつながりはまだ謎に包まれているかもしれません。そこで、まずはこの写真を見てみましょう。ディープラーニング、機械学習、人工知能の間には密接な相関関係があり、進歩的な関係があることがわかります。ディープラーニングは機械学習の特定の分野であり、機械学習

2006 年にディープ ラーニングの概念が提案されてから、ほぼ 20 年が経過しました。ディープ ラーニングは、人工知能分野における革命として、多くの影響力のあるアルゴリズムを生み出してきました。では、ディープラーニングのトップ 10 アルゴリズムは何だと思いますか?私の考えでは、ディープ ラーニングのトップ アルゴリズムは次のとおりで、いずれもイノベーション、アプリケーションの価値、影響力の点で重要な位置を占めています。 1. ディープ ニューラル ネットワーク (DNN) の背景: ディープ ニューラル ネットワーク (DNN) は、多層パーセプトロンとも呼ばれ、最も一般的なディープ ラーニング アルゴリズムです。最初に発明されたときは、コンピューティング能力のボトルネックのため疑問視されていました。最近まで長年にわたる計算能力、データの爆発的な増加によって画期的な進歩がもたらされました。 DNN は、複数の隠れ層を含むニューラル ネットワーク モデルです。このモデルでは、各層が入力を次の層に渡し、

双方向 LSTM モデルは、テキスト分類に使用されるニューラル ネットワークです。以下は、テキスト分類タスクに双方向 LSTM を使用する方法を示す簡単な例です。まず、必要なライブラリとモジュールをインポートする必要があります: importosimportnumpyasnpfromkeras.preprocessing.textimportTokenizerfromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.modelsimportSequentialfromkeras.layersimportDense,Em

畳み込みニューラル ネットワーク (CNN) と Transformer は、さまざまなタスクで優れたパフォーマンスを示した 2 つの異なる深層学習モデルです。 CNN は主に、画像分類、ターゲット検出、画像セグメンテーションなどのコンピューター ビジョン タスクに使用されます。畳み込み演算を通じて画像上の局所的な特徴を抽出し、プーリング演算を通じて特徴の次元削減と空間的不変性を実行します。対照的に、Transformer は主に、機械翻訳、テキスト分類、音声認識などの自然言語処理 (NLP) タスクに使用されます。セルフアテンション メカニズムを使用してシーケンス内の依存関係をモデル化し、従来のリカレント ニューラル ネットワークにおける逐次計算を回避します。これら 2 つのモデルは異なるタスクに使用されますが、シーケンス モデリングでは類似点があるため、

オブジェクト追跡はコンピュータ ビジョンにおける重要なタスクであり、交通監視、ロボット工学、医療画像処理、自動車両追跡などの分野で広く使用されています。深層学習手法を使用して、ターゲット オブジェクトの初期位置を決定した後、ビデオ内の連続する各フレーム内のターゲット オブジェクトの位置を予測または推定します。オブジェクト追跡は実生活において幅広い用途があり、コンピュータ ビジョンの分野でも非常に重要です。オブジェクト追跡には通常、オブジェクト検出のプロセスが含まれます。以下に、オブジェクト追跡手順の概要を示します。 1. オブジェクト検出。アルゴリズムは、オブジェクトの周囲に境界ボックスを作成することによってオブジェクトを分類および検出します。 2. 各オブジェクトに一意の識別 (ID) を割り当てます。 3. 検出されたオブジェクトの動きをフレーム単位で追跡し、関連情報を保存します。ターゲットの種類 追跡ターゲット

エディター | Radish Skin 2021 年の強力な AlphaFold2 のリリース以来、科学者はタンパク質構造予測モデルを使用して、細胞内のさまざまなタンパク質構造をマッピングし、薬剤を発見し、既知のあらゆるタンパク質相互作用の「宇宙地図」を描いてきました。ちょうど今、Google DeepMind が AlphaFold3 モデルをリリースしました。このモデルは、タンパク質、核酸、小分子、イオン、修飾残基を含む複合体の結合構造予測を実行できます。 AlphaFold3 の精度は、これまでの多くの専用ツール (タンパク質-リガンド相互作用、タンパク質-核酸相互作用、抗体-抗原予測) と比較して大幅に向上しました。これは、単一の統合された深層学習フレームワーク内で、次のことを達成できることを示しています。
