コンピューター ビジョン (コンピューター ビジョン) は通常 CV と呼ばれ、コンピューターが画像を「見て」「理解できる」ようにするテクノロジーを使用する研究分野です。写真またはビデオ、コンテンツ。
この記事では、コンピューター ビジョンについての全体的な概要を説明します。この記事は 6 つの部分に分かれています。
生理学的に、視覚は視覚器官の受容細胞の興奮から始まり、視覚神経系が収集した情報を処理した後に形成されます。私たち人間は、目の前の物の形や状態を直観的に理解するために視覚を使用しており、ほとんどの人は、料理を完成させたり、障害物を乗り越えたり、道路標識を読んだり、ビデオを見たり、その他数え切れないほどの作業を視覚に頼っています。実際、視覚障害者のような特別なグループがなければ、大多数の人は視覚を通じて外部情報を取得しており、この割合は 80% にも達します。有名な実験心理学者トレイヒャーによると、この割合には根拠がないわけではありません。人間が得る情報の 83% は視覚から、11% は聴覚から、残りの 6% は嗅覚、触覚、味覚から得られることが多数の実験によって確認されています。したがって、人間にとって視覚は間違いなく最も重要な感覚です。
人間だけが「視覚動物」であるわけではありませんが、ほとんどの動物にとって視覚も非常に重要な役割を果たしています。人間や動物は、視覚を通じて外部の物体の大きさ、明暗、色、動きなどを認識し、身体の生存に重要なさまざまな情報を得ることで、周囲の世界の様子や周囲の様子を知ることができます。世界とどのように対話するか。
#コンピュータ ビジョンが登場するまで、画像はコンピュータにとってブラック ボックス状態でした。コンピュータにとって、画像は単なるファイルまたはデータ文字列にすぎません。コンピュータは画像の内容を知りません。画像のサイズ、占有メモリ量、形式などだけを知っています。
コンピュータと人工知能が現実世界で重要な役割を果たしたいのであれば、画像を理解する必要があります。そのため、半世紀にわたり、コンピューター科学者はコンピューターに視覚を与える方法を解明しようと試み、「コンピューター ビジョン」という分野を生み出しました。
インターネットの急速な発展により、コンピューター ビジョンも特に重要になってきました。以下の図は、2020 年以降のネットワーク上の新規データ量の傾向グラフです。灰色のグラフィックは構造化データ、青色のグラフィックは非構造化データ (主に写真とビデオ) です。写真やビデオの数が指数関数的に増加していることは明らかです。
#インターネットはテキストと画像で構成されています。テキストの検索は比較的簡単ですが、画像を検索するには、アルゴリズムが画像に含まれる内容を認識する必要があります。長い間、人間には画像やビデオの内容を理解するための十分なテクノロジーがなく、画像やビデオの説明を取得するには手動の注釈に頼るしかありませんでした。コンピュータがこれらの画像情報をよりよく理解できるようにする方法は、今日のコンピュータ技術が直面している大きな課題です。画像や動画のデータを最大限に活用するには、コンピュータに画像や動画を「見て」内容を理解させる必要があります。コンピューター ビジョンは人工知能分野の重要な分野であり、簡単に言えば、コンピューターに画像やビデオの内容を理解させることで解決できる問題です。例: 写真のペットは猫ですか、それとも犬ですか?写真の人物はラオ・チャンですか、それともラオ・ワンですか?ビデオの中の人たちは何をしているのですか?さらに、コンピュータビジョンとは、人間の目の代わりにカメラやコンピュータを使用してターゲットを識別、追跡、測定し、さらにグラフィック処理を実行して、人間の目での観察や検出用の機器への送信により適した画像を取得することを指します。科学分野として、コンピューター ビジョンは関連する理論と技術を研究し、画像や多次元データから高レベルの情報を取得できる人工知能システムの構築を試みています。エンジニアリングの観点から見ると、自動化システムを活用して人間の視覚システムを模倣し、タスクを完了することを目指しています。コンピューター ビジョンの最終目標は、コンピューターが人間と同じように視覚を通じて世界を観察および理解できるようにし、自律的に環境に適応できるようにすることです。しかし、コンピュータがカメラを通して世界を認識できることを真に理解することは非常に困難です。カメラで捉えた画像は私たちが普段見ているものと同じですが、コンピュータにとってはどんな画像も単なるピクセルの配置と組み合わせにすぎないからです。値: 厳格な数値の束。コンピューターがこれらの厳密な数値から意味のある視覚的な手がかりを読み取ることができるようにする方法は、コンピューター ビジョンが解決すべき問題です。
カメラや携帯電話を使ったことがある人なら誰でも、コンピューターが驚くほど忠実で詳細な写真を撮るのが得意であることを知っています。ある程度、コンピューターは人工的なものです。 「視覚」は人間の自然な視覚能力よりもはるかに強力です。しかし、私たちがよく「聞いても理解できない」と言われるように、「見える」ことが「理解できる」わけではないので、コンピュータに画像を真に「理解」してもらいたいと思うと、それは簡単なことではありません。画像はピクセルの大きなグリッドであり、各ピクセルには、赤、緑、青の 3 原色の組み合わせである色があります。 RGB 値と呼ばれる 3 つの色の強度を組み合わせることで、任意の色を得ることができます。始めるのに最も単純で最も適したコンピューター ビジョン アルゴリズムは次のとおりです。ピンクのボールなどの色付きのオブジェクトを追跡するには、まずボールの色を記録し、中心ピクセルの RGB 値を保存し、次に画像をプログラムにこの色に最も近いピクセルを見つけさせます。アルゴリズムは左上隅から開始して各ピクセルを調べ、ターゲットの色との差を計算します。各ピクセルをチェックした後、ピクセルの最も近い部分がボールがあるピクセルである可能性があります。このアルゴリズムはこの 1 つの画像での実行に限定されず、ビデオの各フレームでアルゴリズムを実行してボールの位置を追跡することができます。もちろん、光や影などの影響でボールの色は変化しますので、保存したRGB値と全く同じではありませんが、かなり近いものにはなります。ただし、夜間のフットボールの試合などの極端な場合には、追跡効果が非常に劣る可能性があり、チームのジャージの 1 つがボールと同じ色の場合、アルゴリズムは完全に「失神」します。したがって、環境を厳密に制御できない限り、このような色追跡アルゴリズムが実用化されることはほとんどありません。現在、コンピュータ ビジョンのアルゴリズムには「深層学習」の手法や技術が使われることが多くなっていますが、その中でも性能が優れている畳み込みニューラル ネットワーク (CNN) が最も広く使われています。 「ディープラーニング」に関連する知識は広すぎるため、この記事ではこれ以上詳しく説明しません。 「ディープラーニング」についてさらに詳しく知りたい場合は、AI 入門コース「インテル® OpenVINO™ ツールスイート初級コース」をご覧ください。 AI の基本概念から始まり、人工知能とビジョン アプリケーションに関する関連知識を紹介し、ユーザーがインテル® OpenVINO™ ツール スイートの基本概念とアプリケーション シナリオをすぐに理解できるようにします。コース全体には、ビデオ処理、ディープ ラーニングに関連する知識、人工知能アプリケーションの推論アクセラレーション、インテル® OpenVINO™ ツール スイートのデモ デモンストレーションが含まれており、ディープ ラーニングを浅いところから深いところまで段階的にマスターすることができます。
画像分類は、画像の意味情報に基づいて画像のさまざまなカテゴリを区別することです。 . それはコンピュータです 視覚の中核は、物体検出、画像セグメンテーション、物体追跡、行動分析、顔認識などの他の高レベルの視覚タスクの基礎です。たとえば、下の図では、コンピューターは画像分類を通じて、画像内の人物、木、草、空を認識します。
画像分類は、セキュリティ分野での顔認識とインテリジェントビデオ分析、交通分野での交通シーン認識、インターネットベースなど、多くの分野で広く使用されています。コンテンツの画像検索やフォトアルバムの自動分類、医療分野での画像認識など。
ターゲット検出タスクの目標は、画像またはビデオ フレームを与え、コンピューターにその中のすべてのターゲットの位置を検出させ、各ターゲットを与えることです。特定のカテゴリー。以下の図に示すように、人物の認識と検出を例として、境界線を使用して画像内のすべての人物の位置をマークします。
マルチカテゴリのターゲット検出では、通常、次の図に示すように、さまざまな色の境界線を使用して、さまざまな検出されたオブジェクトの位置をマークします。
セマンティック セグメンテーションは、コンピューター ビジョンの基本的なタスクです。セマンティック セグメンテーションでは、視覚入力を次のように分割する必要があります。意味的に解釈可能なさまざまなカテゴリ。画像全体をピクセルのグループに分割し、ラベルを付けて分類します。たとえば、画像内の車に属するすべてのピクセルを区別し、それらのピクセルを青に色付けしたい場合があります。以下に示すように、画像は人物 (赤)、木 (深緑)、草 (薄緑)、空 (青) のラベルに分割されます。
インスタンス セグメンテーションインスタンス セグメンテーションは、ターゲット検出とセマンティック セグメンテーションを組み合わせたものです。画像内でターゲットが検出され (ターゲット検出)、各ピクセルにラベルが付けられます (セマンティック セグメンテーション)。 ))。上の図と下の図を比較すると、人間のターゲットが使用されている場合、セマンティック セグメンテーションでは同じカテゴリに属する異なるインスタンスが区別されない (すべての人が赤でマークされている) のに対し、インスタンス セグメンテーションでは同じカテゴリの異なるインスタンスが区別されることがわかります (異なる人を区別するために異なる色が使用されます)。
#ターゲット追跡 ターゲット追跡とは、画像シーケンス内の移動ターゲットの検出、抽出、識別、追跡、移動ターゲットの運動パラメータの取得、処理と分析、および移動するターゲットの行動を理解し、より高レベルの検出タスクを完了します。 6. 日常生活におけるコンピュータ ビジョンの応用シナリオコンピュータ ビジョンの応用シナリオは非常に多岐にわたります。ここでは、日常生活における一般的な応用シナリオをいくつか紹介します。 . . · アクセス制御と Alipay のための顔認識以上がコンピューター ビジョンを理解するための 1 つの記事、役立つ情報が満載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。