光学式文字認識 (OCR) は、デジタル ドキュメントにとって重要なテクノロジの 1 つです。コンピューター ビジョンを使用して画像内のテキストを検出して読み取り、自然言語処理アルゴリズムと組み合わせて、文書が伝えている内容を解読して理解します。この記事では、OCR技術の原理と応用について詳しく紹介します。
機械学習ベースの手法
ベースではありますが、機械学習手法は開発は早いですが、実行にははるかに時間がかかり、その精度と推論速度はディープラーニング アルゴリズムを簡単に上回ります。
光学式文字認識方法は前処理され、クリーニングされ、ノイズが除去され、行と列の検出を支援する輪郭検出のために文書が 2 値化されます。
最後に、K 最近傍アルゴリズムやサポート ベクター マシン アルゴリズムなどのさまざまな機械学習アルゴリズムを通じて、文字が抽出、セグメント化、認識されます。単純な OCR データ セットではうまく機能しますが、複雑なデータ セットを処理する場合は失敗する可能性があります。
深層学習ベースの方法
この方法では、テキスト認識用のビジョンと NLP ベースのアルゴリズムを組み合わせて、多数の特徴を効果的に抽出できます。探知などのミッションは特に成功しました。さらに、このアプローチはエンドツーエンドの検出パイプラインを提供し、長い前処理ステップから解放されます。
通常、光学式文字認識 (OCR) 方法には、テキスト領域を抽出し、その境界ボックスの座標を予測するためのビジョンベースの方法が含まれています。次に、境界ボックス データと画像特徴が言語処理アルゴリズムに渡され、RNN、LSTM、および Transformer を使用して特徴ベースの情報がテキスト データにデコードされます。
ディープラーニングベースの光学式文字認識 (OCR) には、領域提案ステージと言語処理ステージの 2 つのステージがあります。
①領域提案フェーズ
最初のフェーズでは、画像からテキスト領域を検出します。これは、テキストの断片を検出して境界ボックスで囲む畳み込みモデルを使用することで実現されます。
ここでのネットワークのタスクは、Fast-RCNN などのターゲット検出アルゴリズムで候補フレームを抽出し、関心のある可能性のある領域をマークして抽出するネットワークと似ています。これらの領域はアテンション マップとして使用され、画像から抽出された特徴とともに言語処理アルゴリズムに提供されます。
②言語処理段階
NLP ベースのネットワークは、これらの領域で取得された情報を抽出するために機能し、言語処理段階で提供される機能に基づいて構築されます。 CNN レイヤー 意味のある文章。
このステップを経ずに文字を直接認識するアルゴリズム (完全に CNN に基づく) が最近の研究で研究されており、伝達される時間情報が限られているテキストの検出に特に役立ちます。 、車のナンバープレートなど。
1. データのノイズ除去
入力側モデル データは適切にノイズ除去されています。ノイズ除去はさまざまな方法で実行できますが、ガウス ブラーが最も一般的です。追加のホワイト ノイズも、補助オートエンコーダー ネットワークを利用して除去できます。
2. 画像のコントラストを向上させる
画像のコントラストは、ニューラル ネットワークがテキスト領域と非テキスト領域を区別するのに重要な役割を果たします。テキストと背景のコントラストの差を増やすと、OCR モデルのパフォーマンスが向上します。
1. 文書認識: 文書認識は、OCR の重要かつ一般的な使用例であり、テキストを検出して識別します。 。
2. データ入力の自動化: OCR を使用してドキュメントやフォームからデータを効果的に取得し、データ入力を自動化し、入力の問題によるデータの異常を軽減します。
3. アーカイブとデジタル ライブラリの作成: OCR は、書籍やドキュメントが属するカテゴリを識別することで、デジタル ライブラリの作成に役立ちます。これらのカテゴリを使用すると、特定のカテゴリの書籍を検索でき、読者がリスト内をシームレスに移動できるようになります。したがって、OCR は古い文書のデジタル化に役立ち、保存が非常に簡単かつ安全になります。
4. テキスト翻訳: テキスト翻訳は OCR、特にシーン テキスト認識の重要な部分です。 OCR システム出力に翻訳モジュールを重ね合わせると、さまざまな言語の文書を理解するのに役立ちます。
5. 楽譜認識: テキスト検出システムは、楽譜から楽譜を検出するようにトレーニングでき、マシンがテキスト情報から直接音楽を再生できるようになります。リスニングのトレーニングにも使えます。
6. マーケティング キャンペーン: OCR システムは、スキャン可能なテキスト部分を製品に添付することで、急速に普及する消費財のマーケティング キャンペーンで成功を収めています。モバイル カメラまたはキャプチャ デバイスを介してスキャンすると、このテキスト部分をプロモーション コードの代わりにテキスト コードに変換できます。
以上が光学式文字認識技術: 原理と応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。