今年はAI技術が爆発的に発展した年で、ChatGPTに代表される大規模言語モデル(LLM)が普及しました。
自然言語の分野で大きな可能性を示すことに加えて、言語モデルは他のモダリティにも徐々に広がり始めています。たとえば、ヴィンセント グラフ モデルの安定拡散にも言語が必要です。モデル。
ビジュアル言語モデル (VL-LLM) を最初からトレーニングするには、多くの場合、大量のリソースが必要となるため、既存のソリューションでは、言語モデルとビジュアル キュー生成モデル (ビジュアル プロンプト ジェネレーター、VPG) を組み合わせています。 )、しかしそれでも、VPG の調整を続けるには、依然として数千の GPU 時間と数百万のトレーニング データが必要です。
最近、シンガポール国立大学と清華大学の研究者は、既存の VPG を既存の VL-LLM モデルに移行するためのソリューション VPGTrans を提案しました。低コストの方法。
論文リンク: https://arxiv.org/abs/2305.01278
コードリンク: https://github.com/VPGTrans/VPGTrans
マルチモーダル対話モデルのデモ :https: //vpgtrans.github.io/
著者: Zhang Ao、Fei Hao、Yao Yuan、Ji Wei、Li Li、Liu Zhiyuan、Chua Tat-Seng
単位: シンガポール国立大学、清華大学
この記事の主な革新点は次のとおりです。
1. 非常に低いトレーニングコスト:
私たちが提案した VPGTrans メソッドを通じて、 迅速に (トレーニング時間の 10% 未満) 既存のマルチモーダル対話モデルのビジュアル モジュールを新しい言語モデルに移行し、同様またはより良い結果を達成できます。
たとえば、ビジョン モジュールを最初からトレーニングする場合と比較して、BLIP-2 FlanT5-XXL のトレーニング オーバーヘッドを 19,000 RMB から 1,000 RMB 未満に削減できます:
図 1: VPGTrans メソッドに基づく BLIP-2 トレーニングのオーバーヘッド削減の比較
#2. マルチモーダルな大規模モデルのカスタマイズ:
を通じて実行できます。 VPGTrans フレームワーク ニーズに応じて、さまざまな新しい大規模言語モデルのビジュアル モジュールを柔軟に追加します。例えば、LLaMA-7BとVicuna-7BをベースにしてVL-LLaMAとVL-Vicunaを作製しました。
#3. オープンソースのマルチモーダル対話モデル:
高品質のマルチモーダル対話を実現できる GPT-4 のようなマルチモーダル対話モデルである VL-Vicuna をオープンソース化しました:
図 2: VL とビクーニャの相互作用の例
1. モチベーションの概要LLM は、従来の事前トレーニング済み視覚言語モデル (VLM) から大規模言語モデルに基づく視覚言語モデル (VL-LLM) まで、マルチモーダル理解の分野で革命を引き起こしました。 )。
ビジュアルモジュールをLLMに接続することで、VL-LLMは既存のLLMの知識、ゼロサンプル汎化能力、推論能力、計画能力などを継承することができます。関連機種としては、BLIP-2[1]、Flamingo[2]、PALM-Eなどがあります。
#図 3: 一般的に使用される VL-LLM アーキテクチャ
既存の一般的に使用されている VL-LLM は、基本的に図 3 に示すアーキテクチャを採用しています。ビジュアル ソフト プロンプト生成モジュール (Visual Prompt Generator、VPG) は、ベース LLM と次元変換用の線形モデルに基づいてトレーニングされます。レイヤー(プロジェクター)。
パラメータのスケールに関しては、通常、LLM が主要な部分 (11B など) を占めます。 、VPG はマイナーな部分 (1.2B など) を占めます。プロジェクターは最小(4M)です。
トレーニング プロセス中、通常、LLM パラメータは更新されないか、 または非常に少数のパラメータのみが更新されます。トレーニング可能なパラメータは主に VPG とプロジェクターから取得されます。
実際には、たとえベース LLM のパラメータが凍結されてトレーニングされなかったとしても、パラメータの量が大きいため、 LLM、VL のトレーニング - LLM の重要なオーバーヘッドは依然としてベース LLM のロードです。
したがって、VL-LLM をトレーニングしても、依然として膨大な計算コストが避けられません。たとえば、BLIP-2 (ベース LLM は FlanT5-XXL) を取得するには、600 時間以上の A100 トレーニング時間が必要です。 AmazonのA100-40G機をレンタルすると2万元近くかかります。
VPG を最初からトレーニングするのは非常に費用がかかるため、コストを節約するために既存の VPG を新しい LLM に移行できないかどうかを検討し始めました。
図 4: VPG の移行: LLM サイズ間の移行と LLM タイプ間の移行
図 4 に示すように、主に 2 種類の VPG の移行を調査しました。(1) LLM サイズ間の移行 (TaS) ) : たとえば、OPT-2.7B から OPT-6.7B へ。
(2) LLM 間タイプ移行 (TaT): OPT から FlanT5 など。
TaS の重要性は次のとおりです。LLM 関連の科学研究では、通常、小さな LLM でパラメータを調整してから、大きな LLM に拡張する必要があります。 TaS を使用すると、小さい LLM でトレーニングされた VPG をパラメーターを調整した後、大きい LLM に直接移行できます。
TaTの意義は、今日はLLaMA、明日はアルパカとビクーニャというように、異なる機能を持ったLLMが無限に現れることにあります。 TaT を使用すると、既存の VPG を使用して、新しい言語モデルに視覚認識機能を迅速に追加できます。
#1.3 貢献
(1) 効率的な手法の提案:
私たちはまず、一連の探索的実験を通じて、VPG の移行効率に影響を与える主要な要因を調査しました。探索的な実験結果に基づいて、2 段階の効率的な移行フレームワークVPGTrans を提案します。このフレームワークにより、計算オーバーヘッドと VL-LLM のトレーニングに必要なトレーニング データを大幅に削減できます。
たとえば、最初からトレーニングする場合と比較して、BLIP-2 OPT-2.7B を 6.7B VPG に移行することで使用できるデータと計算時間は約 10% のみです。 各データセットで同様またはより良い結果を達成します (図 1) 。 トレーニング費用の範囲は 17,901 RMB ~ 1,673 RMB です。
(2) 興味深い発見を得る:
TaS シナリオと TaT シナリオの両方でいくつかの興味深い結果を提供します。説明してみてください:a) TaS シナリオでは、VPGTrans を使用して小規模から大規模に移行しても、最終的なモデルの効果には影響しません。 b) TaS シナリオでは、言語モデルでトレーニングされた VPG が小さいほど、大規模モデルへの移行時の効率が高くなり、最終的な効果が向上します。 c) TaT シナリオでは、モデルが小さいほど、移行ギャップは大きくなります。私たちの検証実験では、VPGTrans を使用した OPT350M と FlanT5 ベース間の相互移行は、最初からトレーニングするのとほぼ同じくらい遅くなります。 (3) オープンソース: VPGTrans VL を使用して 2 つの新しいソースを入手しました-LLM: VL-LLaMA および VL-Vicuna は、コミュニティでオープンソース化されています。その中でも、VL-Vicuna は GPT4 と同様の高品質なマルチモーダル対話を実装しています。 まず、VPG の移行効率を最大化する方法を分析するために、一連の探索および検証実験を実施します。次に、これらの重要な観察に基づいてソリューションを提案します。 基本モデルとして BLIP-2 アーキテクチャを選択し、事前トレーニング コーパスは COCO と SBU を使用します。合計 140 万の画像とテキストのペア。 ダウンストリーム タスクは、COCO Caption、NoCaps、VQAv2、GQA、および OK-VQA のゼロショット設定を使用して評価されます (キャプション タスクは厳密にはゼロショットではありません)。以下は私たちの主な発見です: (1) トレーニングされた VPG を直接継承すると収束を加速できますが、その効果は限定的です: LLM でトレーニングされた VPG を大規模な LLM に直接移行すると、モデルの収束を加速できることがわかりましたが、その加速効果は限られており、収束後のモデルの効果は と比較されます。 VPG を最初からトレーニングすると、ポイントが低下します (図 5 の VQAv2 と GQA の青い線の最高点は両方ともオレンジ色の線よりも低くなります) 。 この低下は、ランダムに初期化されたプロジェクターがトレーニングの開始時に VPG の既存の視覚認識能力にダメージを与えるという事実によるものと推測されます。 2. 高効率の VPG 移行ソリューション: VPGTrans
2.1 探索実験
#実装された VPG を直接継承した結果を次の図に示します (青い曲線)。 VPG の再トレーニング (オレンジ色の線): VPG を最初から再トレーニングします。実施されるトレーニングはリニア プロジェクターに関するものだけであり、VPG に関するトレーニングは行われません。
(2) 最初にプロジェクターのウォームアップ トレーニングを行うと、ポイントの低下を防ぎ、収束をさらに加速できます:
そこで、VPG と LLM を修正し、最初にプロジェクターを 3 エポックの間ウォームアップ トレーニングし、次にトレーニングの次のステップのために VPG を解凍しました。
これにより、ポイントのドロップが回避されるだけでなく、VPG の収束がさらに加速されることがわかりました (図 6)。
しかし、トレーニングの主なコストは LLM (巨大なパラメータ) であるため、プロジェクターのトレーニングのみのコストであることを強調する価値があります。 VPG とプロジェクターを同時にトレーニングする よりもはるかに安価ではありません。 そこで、私たちはプロジェクターのウォームアップを加速するための主要なテクノロジーの探索を開始しました。
#図 6: 最初にプロジェクターをウォームアップ トレーニングすると、ポイントの低下を防ぎ、収束を加速できます
(3) ワード ベクトル コンバーターの初期化により、プロジェクターのウォームアップが高速化されます:
まず、VPG は画像を LLM が理解できるソフト プロンプトに変換することでエフェクトを生成します。 ソフト プロンプト の使用法は実際には と非常によく似ており、すべて言語モデルを直接入力します。モデルに対応するコンテンツを生成するように促します。 #そこで、ソフト プロンプトのプロキシとして単語ベクトルを使用し、 を # にトレーニングしました。 ## のワード ベクトル コンバーター (線形層)。 次に、ワード ベクトル コンバーターとプロジェクターを
この初期化により、プロジェクターのウォームアップ トレーニングを 3 エポックから 2 エポック に減らすことができます。
(4) プロジェクターは、非常に大きな学習率で迅速に収束できます。
さらに実験を行った結果、次のことがわかりました。パラメーターの数が少ないため、クラッシュすることなく通常の学習率の 5 倍を使用してトレーニングできます。学習率 5 倍のトレーニングにより、プロジェクターのウォームアップを さらに 1 エポック
に短縮できます。(5) 追加の発見:
プロジェクターのウォームアップは重要ですが、プロジェクターのトレーニングだけでは十分ではありません。特にキャプション タスクでは、プロジェクターのみをトレーニングした場合の効果は、VPG を同時にトレーニングした場合の効果よりも悪くなります (図 5 の緑の線は、COCO Caption と NoCaps の両方の青の線よりもはるかに低くなります)。
これは、プロジェクターをトレーニングするだけではアンダーフィッティングにつながる
、つまり、をトレーニング データと完全に一致させることができないことを意味します。
#2.2 提案手法
# #図 7: VPGTrans フレームワーク: (1) フェーズ 1: プロジェクターのウォームアップ (2) フェーズ 2: 全体的な微調整
図 7 に示すように、私たちの方法
(1) 第 1 段階: 最初にワード ベクトル コンバーターを使用して、新しいプロジェクターの初期化として元のプロジェクターと融合し、次に、新しいプロジェクターは、1 エポックで 5 倍の学習率でトレーニングされます。
(2) 第 2 段階: VPG とプロジェクターを通常どおり直接トレーニングします。3. 実験結果
3.1 高速化率
表 1 に示すように、さまざまな移行タイプをテストしました。さまざまなデータセットでの VPGTrans の速度向上率。
指定されたデータセット A に対する VPGTrans の加速率は、A に対する最良の効果 a を達成するためのゼロからのトレーニングのラウンド数を、A に対する VPGTrans の効果が超える最小トレーニング ラウンド数で割ることによって得られます。 a.
たとえば、OPT-2.7B で VPG を最初からトレーニングするには、COCO キャプションで最高の効果を得るには 10 エポックが必要ですが、VPG を OPT-125M から OPT-2.7B に移行する場合は、わずか 10 エポックしかかかりませんこの最適な効果を達成するには 1 エポックかかります。加速比は10/1=10倍となります。
TaS シナリオでも TaT シナリオでも、当社の VPGTrans は安定した加速を達成できることがわかります。
説明するために、より興味深い調査結果の 1 つを選択しました。さらに興味深い調査結果については、論文を参照してください。
#TaS シナリオでは、言語モデルでトレーニングされた VPG が小さいほど、移行効率が高くなり、最終的なモデル効果が向上します。表 1 を参照すると、OPT-1.3B から OPT-2.7B への加速比は、OPT-125M および OPT-350M から OPT-2.7b への加速比よりもはるかに小さいことがわかります。
説明を提供しようとしました: 一般に、言語モデルが大きくなるほど、テキスト空間の次元が高くなるため、 の可能性が高くなります。 VPG (VPG は通常、CLIP に似た事前トレーニング済みモデル) 独自の視覚認識能力を損傷します。線形プローブと同様の方法で検証しました。
## 図 8: リニア プロジェクター層のみをトレーニングします。 -LLM サイズ移行 (線形プローブのシミュレーション)図 8 に示すように、OPT-125M、350M、1.3B、および 2.7B の間でクロス LLM サイズ移行を実行しました。サイズ移行。
実験では、
さまざまなモデル サイズでトレーニングされた VPG の視覚認識能力を公平に比較するために、VPG のパラメーターを固定し、リニア プロジェクター層のみをトレーニングしました。視覚認識能力の尺度として、COCO Caption の SPICE 指標を選択しました。与えられたそれぞれの
について、 が小さいほど、ほぼ一致していることを見つけるのは難しくありません。最終的な SPICE A 高現象が小さいほど。 3.3 大規模実験
表 2 に示すように、VPGTrans は大規模なシナリオでも依然として有効です。 。 OPT-2.7B から OPT-6.7B に移行することにより、同等以上の結果を達成するために使用したデータは 10.8% のみ、トレーニング時間は 10% 未満でした。
特に、我々の手法は、FlanT5-XXL に基づく BLIP-2 VL-LLM において4.7% のトレーニングコスト制御 を達成しています。 4. VL-LLM をカスタマイズする
当社の VPGTrans は、視覚認識モジュールを新しい LLM にすばやく追加し、それによってまったく新しい高品質 VL-LLM を取得できます。この作業では、VL-LLaMA と VL-Vicuna を追加でトレーニングします。 VL-LLaMA の効果は次のとおりです。
#表 3: VL-LLaMA の効果表示
At the同時に、当社の VL-Vicuna は GPT-4 のようなマルチモーダルな会話を行うことができます。 MiniGPT-4 と簡単に比較しました:
# 5.概要この作業では、LLM 間の VPG の移植性の問題について包括的な調査を実施しました。まず、移行効率を最大化する重要な要素を検討します。
主要な観察に基づいて、私たちは新しい 2 段階の移行フレームワーク、つまり VPGTrans を提案します。トレーニング コストを大幅に削減しながら、同等以上のパフォーマンスを達成できます。
VPGTrans を通じて、BLIP-2 OPT 2.7B から BLIP-2 OPT 6.7B への VPG の移行を実現しました。 VPG を最初から OPT 6.7B に接続する場合と比較して、VPGTrans に必要なトレーニング データは 10.7% のみで、トレーニング時間は 10% 未満です。
さらに、一連の興味深い調査結果とその背後にある考えられる理由を紹介し、議論します。最後に、VL-LLaMA と LL-Vicuna をトレーニングすることにより、新しい VL-LLM をカスタマイズする際の VPGTrans の実用的な価値を示します。
以上がトレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。