機械学習技術の進歩により、手書き認識技術の開発も確実に促進されるでしょう。この記事では、現在優れたパフォーマンスを発揮している手書き認識テクノロジーとアルゴリズムに焦点を当てます。
カプセル ネットワークは、ニューラル ネットワークにおける最新かつ最先端のアーキテクチャの 1 つであり、重要なネットワークであると考えられています。機械学習技術の既存の改善に加えて。
畳み込みブロックのプーリング層は、データの次元を削減し、画像内のオブジェクトを識別および分類するための空間的不変性を実現するために使用されます。ただし、プールの欠点は、オブジェクトの回転、位置、スケール、その他の位置プロパティに関する大量の空間情報がプロセス中に失われることです。したがって、画像分類の精度は高くても、画像内のオブジェクトの正確な位置を特定するパフォーマンスは低くなります。
Capsule は、オブジェクトの位置、回転、スケールなどの情報を高次元ベクトル空間に保存するために使用されるニューロン モジュールです。各次元はオブジェクトの特別な特性を表します。
特徴マップを生成し、視覚的特徴を抽出するカーネルは、カプセルと呼ばれる複数のグループからの個々の意見を組み合わせることで、動的ルーティングと連携します。これにより、カーネル間の分散が均等になり、CNN と比較してパフォーマンスが向上します。
特徴マップを生成し、視覚的特徴を抽出するカーネルは、複数のグループ (カプセルと呼ばれます) からの個々の意見を組み合わせることで、動的ルーティングと連携します。これにより、カーネル間の同等性が高まり、CNN と比較してパフォーマンスが向上します。
RNN/LSTM (Long Short-Term Memory) によるシーケンシャル データの処理は限定されていますテキストなどの 1 次元データを画像に直接拡張することはできません。
多次元リカレント ニューラル ネットワークでは、標準のリカレント ニューラル ネットワーク内の単一のリカレント接続を、データ内の次元と同じ数のリカレント ユニットに置き換えることができます。
順方向パス中、データ シーケンスの各ポイントで、ネットワークの隠れ層は外部入力と独自のアクティベーションを受け取ります。これは、進行中の 1 つの次元から 1 ステップ後退します。
認識システムにおける主な問題は、2 次元画像を 1 次元のラベル シーケンスに変換することです。これは、入力データを MDRNN レイヤーの階層に渡すことによって行われます。ブロックの高さを選択すると、2D 画像が 1D シーケンスに徐々に折りたたまれ、出力レイヤーでラベルを付けることができます。
多次元リカレント ニューラル ネットワークは、画像の回転やせん断、ストロークの曖昧さ、さまざまな手書きスタイルのプロパティの局所的な歪みなど、入力次元のあらゆる組み合わせに対して堅牢な言語モデルを作成するように設計されています。多次元コンテキストを柔軟にモデル化できるようになります。
これは、音声認識や手書き認識などのタスクを処理し、入力データ全体をマッピングするアルゴリズムですクラス/テキストを出力します。
従来の認識方法では、画像を対応するテキストにマッピングする必要がありますが、画像のパッチがどのように文字と位置合わせされるかはわかりません。 CTC は、音声または手書きの画像の特定の部分が特定の文字とどのように一致するかを知らなくてもバイパスされる可能性があります。
このアルゴリズムへの入力は、手書きテキストの画像のベクトル表現です。画像のピクセル表現と文字シーケンスの間には直接の調整はありません。 CTC は、それらの間のすべての可能な一致の確率を合計することによって、このマッピングを見つけることを目的としています。
CTC でトレーニングされたモデルは通常、リカレント ニューラル ネットワークを使用して各タイム ステップでの確率を推定します。これは、リカレント ニューラル ネットワークでは入力のコンテキストが考慮されるためです。行列で表される各シーケンス要素の文字スコアを出力します。
デコードには次のものが使用できます。
ベスト パス デコード: タイムスタンプごとに最も可能性の高い文字を連結して完全な形にすることで文を予測します。最適なパスが得られます。次のトレーニング反復では、テキストのデコードを改善するために、繰り返される文字とスペースが削除されます。
ビーム検索デコーダー: 最も高い確率で複数の出力パスを提案します。ビーム サイズを一定に保つために、確率が小さいパスは破棄されます。この方法で得られる結果はより正確であり、多くの場合、意味のある結果を得るために言語モデルと組み合わせられます。
トランスフォーマー モデルは、自己注意を使用してシーケンス全体を記憶するという、別の戦略を採用しています。非周期的な手書きメソッドは、トランスフォーマー モデルを使用して実装できます。
Transformer モデルは、ビジュアル レイヤーのマルチヘッド セルフ アテンション レイヤーとテキスト レイヤーを組み合わせて、デコードされる文字シーケンスの言語モデル関連の依存関係を学習します。言語知識はモデル自体に埋め込まれているため、言語モデルを使用した追加の処理ステップは必要なく、語彙の一部ではない出力を予測するのにも適しています。
このアーキテクチャには 2 つの部分があります:
テキスト トランスクライバ。視覚的および言語関連の機能を相互に注意してデコードされた文字を出力します。 。
視覚特徴エンコーダー。さまざまな文字の位置とそのコンテキスト情報に焦点を当て、手書きのテキスト画像から関連情報を抽出するように設計されています。
手書き認識システムのトレーニングは、トレーニング データの不足によって常に問題が発生します。この問題を解決するために、この方法では、開始点として事前にトレーニングされたテキストの特徴ベクトルが使用されます。最先端のモデルは、RNN と連携したアテンション メカニズムを使用して、各タイムスタンプの有用な機能に焦点を当てます。
完全なモデル アーキテクチャは 4 つの段階に分けることができます。入力テキスト画像を正規化し、正規化された入力画像を 2D 視覚特徴マップにエンコードし、デコードに双方向 LSTM を使用します。モデリングでは、デコーダからのコンテキスト情報の出力ベクトルが単語に変換されます。
これは、アテンション メカニズムを使用したエンドツーエンドの手書き認識の方法です。ページ全体を一度にスキャンします。したがって、事前に単語全体を文字または行に分割する必要はありません。この方法では、上記と同様の特徴抽出器として多次元 LSTM (MDLSTM) アーキテクチャが使用されます。唯一の違いは最後のレイヤーです。ここでは、抽出された特徴マップが垂直に折り畳まれ、対応するテキストを識別するためにソフトマックス アクティベーション関数が適用されます。
ここで使用される注意モデルは、コンテンツベースの注意と場所ベースの注意のハイブリッドの組み合わせです。デコーダ LSTM モジュールは、前の状態、アテンション マップ、およびエンコーダ機能を取得して、次の予測のための最終出力文字と状態ベクトルを生成します。
これは、アテンション メカニズムに基づく手書きテキスト認識のためのシーケンスツーシーケンス モデルです。このアーキテクチャには、次の 3 つの主要な部分が含まれています。
以上が手書き認識技術とそのアルゴリズム分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。