昨年末、OpenAI は ChatGPT を一般公開しました。このテクノロジーがリリースされると、すぐに AI 主導のチャットボットが主流の議論の中心に押し上げられ、多くの研究者がそれがビジネス、教育、社会をどのように変えることができるかについて議論しました。などなど、また議論があった。
その後、テクノロジー大手も追随して科学研究チームに投資し、いわゆる「生成 AI」テクノロジー (会話テキストやグラフィックスなどを生成できるテクノロジー) も開発されました。準備ができて。
ご存知のとおり、ChatGPT は GPT-3.5 シリーズのモデルに基づいて微調整されています。多くの研究がそれに続く研究を見てきました。しかし、ChatGPT の優れた点は次のとおりです。それに比べて新しい研究は?最近Amazonが発表した論文「Multimodal Chain-of-Thought Reasoning in Language Models」では、視覚的な特徴を組み込んだMultimodal-CoTを提案しており、このアーキテクチャはパラメータ数が10億未満のScienceQAベンチマークで良好なパフォーマンスを示しました。 , GPT-3.5よりも16ポイント高く(75.17%→91.68%)、多くの人間をも上回っています。
ここでは、ScienceQA ベンチマークについて簡単に紹介します。これは、UCLA とアレン人工知能研究所 ( AI2). 主にモデルのマルチモーダル推論能力をテストするために使用されます. 自然科学、言語科学、社会科学の分野をカバーする非常に豊かな分野の多様性を持ち、論理的推論能力に高い要件を提示しますモデルの。
論文アドレス: https://arxiv.org/abs/2302.00923
プロジェクトのアドレス: https://github.com/amazon-science/mm-cot
Amazon の仕組みを見てみましょう言語モデルは GPT-3.5 を超えています。
視覚機能を含むマルチモーダル CoT大規模言語モデル (LLM) は、複雑な推論タスクで優れたパフォーマンスを発揮し、思考連鎖 (CoT) プロンプトの支援なしでは実行できません。 。ただし、既存の CoT 研究は言語モダリティのみに焦点を当てています。マルチモダリティで CoT 推論をトリガーするには、考えられる解決策の 1 つは、視覚機能と言語機能を融合して CoT 推論を実行するように小さな言語モデルを微調整することです。
ただし、小さなモデルは大きなモデルよりも頻繁に何かをでっち上げる傾向があることが観察されており、このようなモデルの動作は「幻覚」と呼ばれることがあります。以前の Google の調査 (論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」) では、CoT ベースのプロンプトは、モデルに少なくとも 1,000 億のパラメータがある場合にのみ有用であることが示されています。
とはいえ、CoT ヒントは小規模モデルのパフォーマンスにプラスの影響を与えず、パラメーターが約 100B のモデルで使用した場合にのみパフォーマンスの向上が得られます。
ただし、この記事では 10 億未満のパラメーターを使用したパフォーマンスの向上について研究しています。簡単に言うと、この論文は視覚的な特徴を含むマルチモーダル CoT を提案し、このパラダイム (マルチモーダル CoT) を使用して複数のモダリティで CoT 推論を見つけます。
マルチモーダル CoT は、視覚的な機能を単一のトレーニング フレームワークに組み合わせて、錯覚的な推論パターンを生成する傾向がある言語モデルの影響を軽減します。全体的に、このフレームワークは、推論プロセスを 2 つの部分、すなわち根拠生成 (理由の発見) と回答推論 (答えの発見) に分割します。
マルチモーダル CoT 2 段階プロセス: テキスト (質問のコンテキスト) と視覚的機能を使用して論理的根拠を生成します。
データセット
この記事では主に ScienceQA データセットに焦点を当てています。このセットにはコンテキストの一部として画像とテキストが含まれており、さらに、データセットには答えの説明が含まれているため、モデルを微調整して CoT 理論的根拠を生成できます。さらに、この論文では DETR モデルを利用して視覚的特徴を生成します。
小規模な LM は、CoT/基本原則を生成するときに幻覚を起こしやすいですが、著者は、モデルが LM によって生成されたテキストの特徴と画像モデルによって生成された視覚的な特徴を利用できるように変更されたアーキテクチャがあれば、と推測しています。 、その後、理由を述べ、質問に答える能力。
アーキテクチャ
一般に、テキスト機能と視覚機能を生成し、それらを使用して次の目的を達成できるアーキテクチャが必要です。テキスト応答性のモデルを生成します。
テキストと視覚的特徴の間に何らかの相互作用があることも知られており、これは本質的にある種の共同注意メカニズムであり、2 つのモダリティに存在する情報をカプセル化するのに役立ちます。アイデアから学ぶことが可能になります。これらすべてを達成するために、著者らはエンコーダ/デコーダ アーキテクチャを備えた T5 モデルを選択しました。また、前述したように、視覚的特徴の生成には DETR モデルが使用されています。
T5 モデルのエンコーダーはテキスト特徴の生成を担当しますが、T5 モデルのデコーダーはエンコーダーによって生成されたテキスト特徴を使用せず、共同注意インタラクション レイヤーを使用します。著者によって提案された (共同注意スタイルのインタラクション層) 出力。
分解を見て、H_ language が T5 エンコーダの出力であると仮定します。 X_vision は DETR の出力です。最初のステップは、アテンション レイヤーを使用できるように、視覚的特徴とテキスト的特徴の非表示サイズが同じであることを確認することです。
注: すべてのコード スニペットは論文の GitHub からのものです: https://github.com/amazon-science/mm-cot/blob/main/model.py
self.image_dense = nn.Linear(self.patch_dim, config.d_model)
W_h は本質的に線形レイヤーであり、H_vision は最終的な視覚的特徴に対応します。 W_h は、テキスト機能のサイズに合わせて視覚機能のサイズを変更するのに役立ちます。
次に、視覚的特徴とテキスト的特徴が相互作用できるように、アテンション レイヤーを追加する必要があります。これを行うために、著者らは H_ language をクエリ ベクトルとして、H_vision をキー ベクトルおよび値ベクトルとして持つシングルヘッド アテンション レイヤーを使用します。
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
これで、テキストと視覚的な特徴からの情報を含む埋め込みが完成しました。次に、著者らはゲート フュージョンを利用して、デコーダに送信される最終的な特徴セットを生成します。ゲート フュージョンには 2 つのステップがあります。
#W_I と W_v は、本質的に 2 つの線形レイヤーです。
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
最後に、融合された特徴がデコーダに渡されます。
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
これは、著者が従う構造とほとんど同じです。ただし、2 つのフェーズがあることに注意してください。最初の段階は、根拠/CoT を生成することです。上の図に示すように、第 2 段階では、第 1 段階で生成された CoT を利用して答えを生成します。
結果著者らは、UnifiedQA モデルの重みを T5 モデルの初期化ポイントとして使用し、ScienceQA データセット上で微調整しました。彼らは、マルチモーダル CoT メソッドが GPT-3.5 を含む以前のすべてのベースラインを上回るパフォーマンスを示したことを観察しました。
興味深いのは、パラメータが 2 億 2,300 万しかないベース モデルでさえ、GPT-3.5 や他の Visual QA モデルよりも優れていることです。これは、マルチモーダル アーキテクチャの力を強調しています。
著者らは、2 段階アプローチが 1 段階アプローチよりも優れていることも示しています。
#結論この論文によってもたらされた最大の利点は、マルチモーダル機能が次のような場合に役立つことです。質問に関しては、ビジュアル機能とテキスト機能がどれほど強力であるかを使用して問題を解決します。著者らは、視覚的特徴を活用することで、たとえ小さな言語モデル (LM) であっても、幻覚がはるかに少なく、意味のある思考連鎖/推論を生み出すことができることを示し、視覚的モデルがその役割を果たすことができることを明らかにしています。思考連鎖に基づいた学習テクノロジーの開発に取り組んでいます。
実験の結果、数百万のパラメータを犠牲にしてビジュアル機能を追加する方が、プレーン テキスト モデルを数十億のパラメータに拡張するよりも大きな価値をもたらすことがわかりました。
以上がGPT 3.5 を超える新世代の小型モデルを探索してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。