NLP と CV の統合イノベーションを分析する: 近年のマルチモーダルディープラーニングを振り返る-AI-php.cn

人間には、聴覚、触覚、嗅覚、味覚、視覚という 5 つの基本的な感覚があります。これら 5 つのモードを通じて、私たちは周囲の世界を認識し、理解します。「マルチモダリティ」とは、周囲の環境を理解するために複数の情報チャネルを同時に組み合わせて使用することを意味します。たとえば、幼児が「猫」という言葉を学ぶとき、猫を指差して「ニャー」などの声を出したり、さまざまな方法でその言葉を大声で言います。 AI 研究者は人間の学習プロセスをパラダイムとして使用し、さまざまなモダリティを組み合わせて深層学習モデルをトレーニングします。

マルチモーダルモデルは通常、入力または出力としてテキストと画像を使用するため、第 2 章では自然言語処理 (NLP) とコンピュータービジョン (CV) の手法に焦点を当てます。。 NLP 分野のメソッドは主にテキストデータ処理に焦点を当てていますが、CV は主に画像処理を扱います。

ホームページ

テクノロジー周辺機器

NLP と CV の統合イノベーションを分析する: 近年のマルチモーダルディープラーニングを振り返る

Apr 11, 2023 pm 04:25 PM

モデル紙

近年、NLP と CV の分野では手法が継続的に進歩しています。シングルモーダルモデルが進歩しただけでなく、大規模マルチモーダル手法も非常に人気のある研究分野になっています。

NLP と CV の統合イノベーションを分析する: 近年のマルチモーダルディープラーニングを振り返る

#論文アドレス: https://arxiv.org/pdf/2301.04856v1.pdf
#プロジェクトアドレス: https://github.com/slds-lmu/seminar_multimodal_dl

##研究者の Matthias Aßenmacher は、最近の論文で、深層学習の 2 つのサブ分野における最先端の研究手法をレビューし、包括的な概要を提供しようとしました。さらに、あるモダリティを別のモダリティに変換するためのモデリングフレームワーク (3.1 章と 3.2 章)、および 1 つのモダリティを利用して別のモダリティを強化する表現学習モデル (3.3 章と 3.4 章) について説明します。研究者らは、両方のモダリティを同時に処理することに焦点を当てたアーキテクチャを紹介して、第 2 部を締めくくっています (第 3.5 章)。最後に、この文書では、他のモダリティ (第 4.1 章および 4.2 章) と、統一されたアーキテクチャで異なるモダリティで異なるタスクを処理できる一般的なマルチモーダルモデル (第 4.3 章) についても取り上げます。興味深いアプリケーション (「ジェネレーティブアート」、第 4.4 章) が、このレビューの飾りになります。

論文の各章の目次は次のとおりです。

NLP と CV の統合イノベーションを分析する: 近年のマルチモーダルディープラーニングを振り返る

##マルチモダリティディープラーニング入門

人間には、聴覚、触覚、嗅覚、味覚、視覚という 5 つの基本的な感覚があります。これら 5 つのモードを通じて、私たちは周囲の世界を認識し、理解します。「マルチモダリティ」とは、周囲の環境を理解するために複数の情報チャネルを同時に組み合わせて使用することを意味します。たとえば、幼児が「猫」という言葉を学ぶとき、猫を指差して「ニャー」などの声を出したり、さまざまな方法でその言葉を大声で言います。 AI 研究者は人間の学習プロセスをパラダイムとして使用し、さまざまなモダリティを組み合わせて深層学習モデルをトレーニングします。

表面的には、深層学習アルゴリズムは、損失関数を最適化するためにニューラルネットワークをトレーニングすることによって、定義された目的関数を最適化します。最適化、つまり損失の最小化は、勾配降下法と呼ばれる数値最適化手順を通じて実現されます。したがって、深層学習モデルは数値入力のみを処理し、数値出力のみを生成できます。ただし、マルチモーダルタスクでは、画像やテキストなどの非構造化データに遭遇することがよくあります。したがって、マルチモーダルタスクに関する最初の疑問は、入力を数値的に表現する方法であり、2 番目の疑問は、異なるモダリティを適切に組み合わせる方法です。

たとえば、深層学習モデルをトレーニングして猫の写真を生成することは、一般的なタスクである可能性があります。まず、コンピュータは「猫」というテキスト入力を理解し、その情報を何らかの方法で特定の画像に変換する必要があります。したがって、入力テキスト内の単語間の文脈関係と、出力画像内のピクセル間の空間関係を決定する必要があります。幼い子供にとっては簡単なことでも、コンピュータにとっては大きな挑戦となることがあります。どちらも、その動物の意味や外観を含めて、「猫」という言葉について一定の理解を持っている必要があります。

現在の深層学習分野における一般的なアプローチは、猫を潜在空間内のベクトルとして数値的に表す埋め込みを生成することです。これを達成するために、近年、さまざまな方法とアルゴリズムアーキテクチャが開発されています。この記事では、非構造化データやさまざまなモーダル入力の組み合わせによってもたらされる課題を克服するために、最先端 (SOTA) マルチモーダルディープラーニングで使用されるさまざまな手法の概要を説明します。

章の概要

マルチモーダルモデルは通常、入力または出力としてテキストと画像を使用するため、第 2 章では自然言語処理 (NLP) とコンピュータービジョン (CV) の手法に焦点を当てます。。 NLP 分野のメソッドは主にテキストデータ処理に焦点を当てていますが、CV は主に画像処理を扱います。

NLP (セクション 2.1) に関する非常に重要な概念は単語埋め込みと呼ばれるもので、現在、ほぼすべてのマルチモーダル深層学習アーキテクチャの重要な部分となっています。この概念は、いくつかの NLP タスクで大きな進歩を遂げた BERT などの Transformer ベースのモデルの基礎も築きました。特に、Transformer のセルフアテンションメカニズムは NLP モデルを完全に変えました。これが、ほとんどの NLP モデルが Transformer をコアとして使用する理由です。

コンピュータビジョン (セクション 2.2) では、著者はさまざまなネットワークアーキテクチャ、つまり ResNet、EfficientNet、SimCLR、BYOL を紹介します。どちらの分野でも、さまざまなアプローチを比較し、それらが困難なベンチマークでどのようにパフォーマンスを発揮するかを比較することは非常に興味深いことです。したがって、第 2 章の最後にあるサブセクション 2.3 では、CV と NLP のさまざまなデータセット、事前トレーニングタスク、ベンチマークの包括的な概要を説明します。

第 3 章では、さまざまなマルチモーダルアーキテクチャに焦点を当て、テキストと画像のさまざまな組み合わせを取り上げます。提案されたモデルは、NLP と CV のさまざまな方法を組み合わせて研究を進めます。まず、Img2Text タスク (セクション 3.1)、オブジェクト認識用の Microsoft COCO データセット、および画像キャプチャ用の Meshed-Memory Transformer を紹介します。

さらに、研究者らは短いテキストのプロンプトに基づいて画像を生成する方法を開発しました (セクション 3.2)。このタスクを達成した最初のモデルは、敵対的生成ネットワーク (GAN) と変分オートエンコーダー (VAE) でした。近年、これらの手法は継続的に改良され、今日の SOTA Transformer アーキテクチャや DALL-E や GLIDE などのテキストガイド付き普及モデルは目覚ましい成果を上げています。もう 1 つの興味深い質問は、画像を活用して言語モデルをサポートする方法です (セクション 3.3)。これは、順次埋め込み、より高度な実際の埋め込み、または Transformer 内で直接実現できます。

CLIP、ALIGN、Florence などのテキスト対応 CV モデルもご覧ください (セクション 3.4)。基本モデルの使用は、モデルの再利用 (例: DALL-E 2 の CLIP) と、テキストと画像の接続の対照的な損失を意味します。さらに、ゼロショットでは、微調整を行うことで、新しいデータや未確認のデータを簡単に分類できます。特に、画像の分類と生成のためのオープンソースアーキテクチャである CLIP は、昨年大きな注目を集めました。テキストと画像を同時に処理するための他のいくつかのアーキテクチャは、第 3 章の最後 (セクション 3.5) で紹介されています。

たとえば、Data2Sec は同じ学習方法を使用して音声、視覚、言語を処理し、1 つのアーキテクチャでさまざまなモダリティを処理する共通の方法を見つけようとします。さらに、VilBert は、共同注意を実装することで、一般的な BERT アーキテクチャを拡張し、画像とテキストの入力を処理します。このアプローチは、Google の Deepmind Flamingo でも使用されています。さらに、Flamingo は、事前トレーニングされた視覚モデルと言語モデルの数ショット学習とフリーズを通じて、単一の視覚言語モデルで複数のタスクを処理することを目指しています。

最終章 (第 4 章) では、ビデオ、音声、表形式データなど、テキストや画像以外のモダリティを処理できるメソッドを紹介します。全体的な目標は、モダリティのためのモーダルではなく、課題に簡単に対処できる、ユニバーサルなマルチモーダルアーキテクチャを探索することです。したがって、マルチモーダルな融合と位置合わせの問題にも対処し、結合表現と調整表現のどちらを使用するかを決定する必要があります (セクション 4.1)。さらに、構造化データと非構造化データの正確な組み合わせについては、さらに詳しく説明します (セクション 4.2)。

著者は、近年開発されたさまざまな統合戦略も提案しています。この記事では、生存分析と経済学の 2 つの使用例を通じてそれを説明します。これを超えて、もう 1 つの興味深い研究課題は、Google の研究者が「Pathway」モデルで作成したもののような、いわゆる多目的モデル (セクション 4.3) でさまざまなタスクをどのように処理するかということです。最後に、この記事では、DALL-E などの画像生成モデルを使用してジェネレーティブアートの分野で芸術作品を作成する、アートシーンにおけるマルチモーダルディープラーニングの典型的な応用例を示します (セクション 4.4)。

詳細については、元の論文を参照してください。

以上がNLP と CV の統合イノベーションを分析する: 近年のマルチモーダルディープラーニングを振り返るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。