ChatGPT の人気により、人々は人工知能分野の発展に非常に関心を持つようになりました。多くの専門家は、ソフトウェアおよびハードウェア技術の急速な発展とともに人工知能の時代が訪れると信じています。そして、情報技術分野の先駆者として、プログラマーにとって人工知能技術の学習は避けては通れないテーマとなっています。
一般的に、人工知能は計算知能、知覚知能、認知知能の 3 つの研究方向に分類できます。
計算知能とは、数値演算、行列分解、微積分計算など、人々がよく知っているコンピューターの日常的な操作です。
知覚インテリジェンスとは、音声認識や画像認識などの最先端のテクノロジーを利用して、カメラ、マイク、その他のセンサー ハードウェア デバイスを通じて物理世界からデジタル世界に信号をマッピングし、さらに改善することを指します。このデジタル情報は、記憶、理解、計画、意思決定などの認知レベルに達します。
認知的インテリジェンスは、人間の思考の理解、知識の共有、アクションのコラボレーション、またはゲームによく似ており、取得した情報に基づいた思考と意思決定を意味します。この段階では、計算知能、知覚知能、データ クリーニング、画像認識、その他の機能の使用が必要です。さらに、ビジネス シナリオに基づいて戦略を構築し、意思決定できるように、ビジネス ニーズを理解し、分散したデータと知識を調整および管理する能力も必要です。
現在、人工知能の研究の多くは知覚知能の段階に集中しており、認知知能の進歩は比較的遅いです。
認知知能の分野において、人々の生活に最も近い技術は映像記述技術です。知覚インテリジェンス技術におけるビデオ分類、オブジェクト検出、その他のテクノロジーを通じて、ビデオにどのようなオブジェクトが表示されているかを識別できます。しかし、これではビデオの内容を理解することはできず、赤い顔の男、ナイフ、赤い馬を機械的に説明することしかできません。
ビデオの説明では、ビデオ内のオブジェクトを特定し、オブジェクト間の関係を理解する必要がありますが、同時にシーンの違い、オブジェクトの動き、動作も理解し、対応する蓄積された知識を組み合わせて、実装に合わせた説明。これらすべてが大きな技術的課題をもたらします。ビデオを文章に翻訳するのと同じように、コンピュータービジョンと自然言語処理を統合した総合的なテクノロジーです。ビデオのコンテンツを正しく理解するだけでなく、自然言語を使用してビデオ内のオブジェクト間の関係を表現することも必要です。
現在のビデオコンテンツ記述アルゴリズムは、主に言語テンプレートベースの方法、検索ベースの方法、および基本的なエンコーダ/デコーダ方法に分かれています。以下に分けてご紹介しましょう。
言語テンプレートに基づく方法では、まず、ビデオ分類やターゲット検出などの方法を通じて、ビデオ内のターゲット、属性、アクション、およびターゲット間の関係を検出します。次に、検出されたオブジェクトが特定のルールに従って事前に決定された言語テンプレートに埋め込まれ、完全な説明文が形成されます。
言語テンプレートに基づく方法はシンプルで直感的ですが、固定テンプレートの制限により、生成される文は単一の文法構造を持ち、表現形式の柔軟性に欠けます。同時に、この方法では、初期段階で詳細なアノテーション作業を実行し、ビデオに含まれる各オブジェクト、アクション、属性などに対して統一されたカテゴリラベルを策定する必要があります。さらに、この方法では、テンプレートの範囲外のビデオではまったく異なる結果が得られます。
検索ベースの方法では、まずデータベースを構築し、データベース内の各ビデオを確立する必要があります。対応するステートメント説明ラベルがあります。説明対象の動画を入力し、データベースから最も類似した動画を検索し、要約してリセットした後、類似した動画に対応する説明文を説明対象の動画に移行します。
一般に、検索手法によって生成される説明文は人間の自然言語の表現形式に近く、文構造がより柔軟です。しかし、この方法はデータベースのサイズに大きく依存するため、記述すべき映像に類似した映像がデータベースに存在しない場合、生成される説明文は映像の内容と大きく誤差が生じることになる。上記のいずれの方法も、初期段階では複雑な視覚処理に大きく依存しており、その後生成される文章に対する言語モデルの最適化が不十分であるという問題があります。映像記述問題では、どちらの方法でも正確な記述と多様な表現を備えた質の高い文章を生成することが困難です。
現在、映像記述の分野ではコーデックベースの方式が主流となっています。これは主に、ディープ ニューラル ネットワークに基づいたモデルのエンコードとデコードによる機械翻訳の分野での画期的な進歩の恩恵を受けています。
機械翻訳の基本的な考え方は、入力ソース文とターゲット文を同じベクトル空間で表現し、最初にエンコーダを使用してソース文を中間ベクトルにエンコードし、次にデコーダを使用して、中間ベクトルをデコードするのはターゲットステートメントです。
ビデオの説明の問題は、本質的には「翻訳」問題、つまりビデオを自然言語に翻訳する問題とみなすことができます。この手法は、初期段階で動画の複雑な処理を必要とせず、大量の学習データから動画と記述言語のマッピング関係を直接学習し、エンドツーエンドの学習を実現し、より精度の高い動画を制作することができます。内容、柔軟な文法、多様な形式を説明します。
以上がプログラマーが習得すべきアルゴリズムの知識ポイントをビデオで解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。