ホームページ > テクノロジー周辺機器 > AI > Bytedance Doubaoと武漢大学がCALを提案:視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化

Bytedance Doubaoと武漢大学がCALを提案:視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化

WBOY
リリース: 2024-06-19 09:53:01
オリジナル
958 人が閲覧しました
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

現在の主流のビジュアル言語モデル (VLM) は、主に大規模言語モデル (LLM) に基づいており、さらに微調整されています。したがって、さまざまな方法で画像を LLM の埋め込み空間にマッピングし、自己回帰手法を使用して画像トークンに基づいて答えを予測する必要があります。

このプロセスでは、テキストトークンを介して暗黙的に実装されます このステップを適切に配置する方法が非常に重要です。

この問題に対応して、武漢大学、ByteDance Beanbao Large Model Team、および中国科学院大学の研究者は、対照学習に基づいて、次のようなテキスト トークンを選別するためのテキスト トークン スクリーニング方法 (CAL) を提案しました。画像との関連性が高いものは、より正確なマルチモーダル アライメントを実現するために損失関数の重みが増加します。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

  • ペーパーリンク: https://arxiv.org/pdf/2405.17871
  • コードリンク: https://github.com/foundation-multimodal-models/CAL

CAL には次のような特徴があります:

  • は、追加の事前トレーニング段階を必要とせずにトレーニング プロセスに直接ネストできます。
  • は、OCR とキャプションのベンチマークで大幅な改善を達成しました。視覚化から、CAL により画像のモーダル配置が向上していることがわかります。
  • CAL は、ノイズの多いデータに対するトレーニング プロセスの耐性を高めます。

研究の動機

現在、視覚言語モデルは画像モダリティの調整に依存しており、調整を行う方法は非常に重要です。現在の主流の方法は、テキストの自動回帰によって暗黙的な位置合わせを実行することですが、画像の位置合わせに対する各テキスト トークンの寄与には一貫性がないため、これらのテキスト トークンを区別することが非常に必要です。

CAL は、既存の視覚言語モデル (VLM) トレーニング データにおいて、テキスト トークンが 3 つのカテゴリに分類できることを提案しました:

  • 写真に関連性の高いテキスト: エンティティ (人物、動物、物体など)、数量、色、テキストなど。これらのトークンは画像情報に直接対応しており、マルチモーダル位置合わせにとって重要です。
  • 画像と相関性の低い文章:続く単語や前の文章から推測できる内容など。これらのトークンは、実際には主に VLM のプレーン テキスト機能をトレーニングするために使用されます。
  • 画像コンテンツと矛盾するテキスト: これらのトークンは画像情報と矛盾しており、誤解を招く情報を提供する可能性もあり、マルチモーダル位置合わせプロセスに悪影響を及ぼします。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果図 1: 緑色のマークは関連性の高いトークン、赤色はコンテンツのコンテンツ、無色は中立トークンです

トレーニング プロセス中、後者の 2 種類のトークンは実際には、より大きな割合を占めますが、画像に強く依存していないため、画像のモーダル配置にはほとんど影響しません。したがって、より良い位置合わせを実現するには、最初のタイプのテキスト トークン、つまり画像との関連性が高いトークンの重みを増やす必要があります。トークンのこの部分をどのように見つけるかが、この問題を解決する鍵となります。

方法

画像と関連性の高いトークンを見つける この問題は、条件対比によって解決できます。
トレーニング データ内の各画像とテキストのペアについて、画像入力がない場合、各テキスト トークンのロジットは、コンテキストと既存の知識値に基づいてこの状況の発生についての LLM の推定を表します。
  • 前に画像入力を追加すると、追加のコンテキスト情報を提供することと同じになり、各テキスト トークンのロジットは新しい状況に基づいて調整されます。これら 2 つのケースにおけるロジットの変化は、各テキスト トークンに対する画像の新しい状態の影響を表しています。
  • 具体的には、トレーニング プロセス中に、CAL は画像とテキスト シーケンス、および個々のテキスト シーケンスをそれぞれ大規模言語モデル (LLM) に入力して、各テキスト トークンのロジットを取得します。これら 2 つのケースのロジット差を計算することで、各トークンに対する画像の影響を測定できます。ロジットの差が大きいほど、トークンに対する画像の影響が大きくなるため、トークンは画像との関連性が高くなります。以下の図は、テキスト トークンのロジット diff メソッドと CAL メソッドのフローチャートを示しています。図 2: 左の図は 2 つの状況におけるトークン ロジット差分を視覚化したもの、右の図は CAL メソッドのプロセスを視覚化したものです

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果Cal 実験検証は 2 つの主流で行われました。モデル: MGM と MGM であり、異なるサイズのモデルでパフォーマンスの向上が達成されました。
以下の 4 つの検証部分が含まれています:

(1) CAL を使用するモデルは、さまざまなベンチマーク指標でより優れたパフォーマンスを示します。


(2) 2 つの画像とテキストのペアのテキストをランダムに均等に交換することで、ノイズ データ (画像とテキストの不一致) のバッチを作成し、CAL が作成するモデルのトレーニングに使用します。トレーニングプロセスは、より強力なデータ耐ノイズ性能を備えています。図 3: 異なる強度でのノイズ トレーニングの場合、CAL のパフォーマンスとベースライン

(3) QA ケースの回答部分の画像トークンに対する回答の注意スコアを計算します。そして、それを元の画像上にプロットすると、CAL でトレーニングされたモデルには、より明確な注意分布マップが表示されます。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

C 図 4: ベースラインと CAL のアテンション マップを視覚化できます。各ペアの右側は、最も類似した LLM ボキャブラリのテキスト トークンへの CAL
(4) です。元の画像の場合、CAL でトレーニングされたモデルのマッピング コンテンツは画像のコンテンツに近くなります。 buedtedancedantadantance beanbao bigモデルチームは2023年に設立され、業界で最も高度なAI大規模なモデルテクノロジーの開発、世界クラスの研究チームになり、技術的および社会的発展に貢献することに取り組んでいます。

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
Doubao Big Model チームは、AI 分野における長期的なビジョンと決意を持っており、NLP、CV、音声などをカバーしており、中国に研究所と研究職を持っています。シンガポール、米国、その他の場所。チームは、プラットフォームの十分なデータ、コンピューティング、その他のリソースに依存して、マルチモーダル機能を提供するための自社開発の一般的な大規模モデルを立ち上げ、Doubao、Buttons、などの 50 以上のビジネスをサポートしています。および Jimeng であり、Volcano Engine 法人顧客を通じて一般に公開されています。現在、Doubao APP は中国市場で最も多くのユーザーを抱える AIGC アプリケーションとなっています。 ByteDance Beanbao モデル チームへの参加を歓迎します。

以上がBytedance Doubaoと武漢大学がCALを提案:視覚的に関連したトークンを通じてマルチモーダルアライメント効果を強化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート