ホームページ テクノロジー周辺機器 AI GPT 3.5 を超える新世代の小型モデルを探索してください。

GPT 3.5 を超える新世代の小型モデルを探索してください。

Apr 27, 2023 am 11:43 AM
モデル

昨年末、OpenAI は ChatGPT を一般公開しました。このテクノロジーがリリースされると、すぐに AI 主導のチャットボットが主流の議論の中心に押し上げられ、多くの研究者がそれがビジネス、教育、社会をどのように変えることができるかについて議論しました。などなど、また議論があった。

その後、テクノロジー大手も追随して科学研究チームに投資し、いわゆる「生成 AI」テクノロジー (会話テキストやグラフィックスなどを生成できるテクノロジー) も開発されました。準備ができて。

ご存知のとおり、ChatGPT は GPT-3.5 シリーズのモデルに基づいて微調整されています。多くの研究がそれに続く研究を見てきました。しかし、ChatGPT の優れた点は次のとおりです。それに比べて新しい研究は?最近Amazonが発表した論文「Multimodal Chain-of-Thought Reasoning in Language Models」では、視覚的な特徴を組み込んだMultimodal-CoTを提案しており、このアーキテクチャはパラメータ数が10億未満のScienceQAベンチマークで良好なパフォーマンスを示しました。 , GPT-3.5よりも16ポイント高く(75.17%→91.68%)、多くの人間をも上回っています。

ここでは、ScienceQA ベンチマークについて簡単に紹介します。これは、UCLA とアレン人工知能研究所 ( AI2). 主にモデルのマルチモーダル推論能力をテストするために使用されます. 自然科学、言語科学、社会科学の分野をカバーする非常に豊かな分野の多様性を持ち、論理的推論能力に高い要件を提示しますモデルの。

超越GPT 3.5的小模型来了!

論文アドレス: https://arxiv.org/abs/2302.00923

プロジェクトのアドレス: https://github.com/amazon-science/mm-cot

Amazon の仕組みを見てみましょう言語モデルは GPT-3.5 を超えています。

視覚機能を含むマルチモーダル CoT

大規模言語モデル (LLM) は、複雑な推論タスクで優れたパフォーマンスを発揮し、思考連鎖 (CoT) プロンプトの支援なしでは実行できません。 。ただし、既存の CoT 研究は言語モダリティのみに焦点を当てています。マルチモダリティで CoT 推論をトリガーするには、考えられる解決策の 1 つは、視覚機能と言語機能を融合して CoT 推論を実行するように小さな言語モデルを微調整することです。

ただし、小さなモデルは大きなモデルよりも頻繁に何かをでっち上げる傾向があることが観察されており、このようなモデルの動作は「幻覚」と呼ばれることがあります。以前の Google の調査 (論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」) では、CoT ベースのプロンプトは、モデルに少なくとも 1,000 億のパラメータがある場合にのみ有用であることが示されています。

とはいえ、CoT ヒントは小規模モデルのパフォーマンスにプラスの影響を与えず、パラメーターが約 100B のモデルで使用した場合にのみパフォーマンスの向上が得られます。

ただし、この記事では 10 億未満のパラメーターを使用したパフォーマンスの向上について研究しています。簡単に言うと、この論文は視覚的な特徴を含むマルチモーダル CoT を提案し、このパラダイム (マルチモーダル CoT) を使用して複数のモダリティで CoT 推論を見つけます。

マルチモーダル CoT は、視覚的な機能を単一のトレーニング フレームワークに組み合わせて、錯覚的な推論パターンを生成する傾向がある言語モデルの影響を軽減します。全体的に、このフレームワークは、推論プロセスを 2 つの部分、すなわち根拠生成 (理由の発見) と回答推論 (答えの発見) に分割します。

超越GPT 3.5的小模型来了!

マルチモーダル CoT 2 段階プロセス: テキスト (質問のコンテキスト) と視覚的機能を使用して論理的根拠を生成します。

データセット

この記事では主に ScienceQA データセットに焦点を当てています。このセットにはコンテキストの一部として画像とテキストが含まれており、さらに、データセットには答えの説明が含まれているため、モデルを微調整して CoT 理論的根拠を生成できます。さらに、この論文では DETR モデルを利用して視覚的特徴を生成します。

小規模な LM は、CoT/基本原則を生成するときに幻覚を起こしやすいですが、著者は、モデルが LM によって生成されたテキストの特徴と画像モデルによって生成された視覚的な特徴を利用できるように変更されたアーキテクチャがあれば、と推測しています。 、その後、理由を述べ、質問に答える能力。

アーキテクチャ

一般に、テキスト機能と視覚機能を生成し、それらを使用して次の目的を達成できるアーキテクチャが必要です。テキスト応答性のモデルを生成します。

テキストと視覚的特徴の間に何らかの相互作用があることも知られており、これは本質的にある種の共同注意メカニズムであり、2 つのモダリティに存在する情報をカプセル化するのに役立ちます。アイデアから学ぶことが可能になります。これらすべてを達成するために、著者らはエンコーダ/デコーダ アーキテクチャを備えた T5 モデルを選択しました。また、前述したように、視覚的特徴の生成には DETR モデルが使用されています。

T5 モデルのエンコーダーはテキスト特徴の生成を担当しますが、T5 モデルのデコーダーはエンコーダーによって生成されたテキスト特徴を使用せず、共同注意インタラクション レイヤーを使用します。著者によって提案された (共同注意スタイルのインタラクション層) 出力。

分解を見て、H_ language が T5 エンコーダの出力であると仮定します。 X_vision は DETR の出力です。最初のステップは、アテンション レイヤーを使用できるように、視覚的特徴とテキスト的特徴の非表示サイズが同じであることを確認することです。

注: すべてのコード スニペットは論文の GitHub からのものです: https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)
ログイン後にコピー

W_h は本質的に線形レイヤーであり、H_vision は最終的な視覚的特徴に対応します。 W_h は、テキスト機能のサイズに合わせて視覚機能のサイズを変更するのに役立ちます。

次に、視覚的特徴とテキスト的特徴が相互作用できるように、アテンション レイヤーを追加する必要があります。これを行うために、著者らは H_ language をクエリ ベクトルとして、H_vision をキー ベクトルおよび値ベクトルとして持つシングルヘッド アテンション レイヤーを使用します。

self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, 
kdim=config.hidden_size, vdim=config.hidden_size,
num_heads=1, batch_first=True)


image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
ログイン後にコピー

これで、テキストと視覚的な特徴からの情報を含む埋め込みが完成しました。次に、著者らはゲート フュージョンを利用して、デコーダに送信される最終的な特徴セットを生成します。ゲート フュージョンには 2 つのステップがあります。

  1. 0 から 1 までのスコアのベクトルを取得して、各注目特徴の重要性を決定します。
  2. スコアを使用してテキストとアテンション機能を融合します。

超越GPT 3.5的小模型来了!

#W_I と W_v は、本質的に 2 つの線形レイヤーです。

self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) 
self.sigmoid = nn.Sigmoid()


hidden_states = encoder_outputs[0]
merge = torch.cat([hidden_states, image_att], dim=-1)
gate = self.sigmoid(self.gate_dense(merge))
hidden_states = (1 - gate) * hidden_states + gate * image_att
ログイン後にコピー

最後に、融合された特徴がデコーダに渡されます。

decoder_outputs = self.decoder( input_ids=decoder_input_ids, 
attention_mask=decoder_attention_mask, 
inputs_embeds=decoder_inputs_embeds, 
past_key_values=past_key_values, 
encoder_hidden_states=hidden_states,
ログイン後にコピー

これは、著者が従う構造とほとんど同じです。ただし、2 つのフェーズがあることに注意してください。最初の段階は、根拠/CoT を生成することです。上の図に示すように、第 2 段階では、第 1 段階で生成された CoT を利用して答えを生成します。

結果

著者らは、UnifiedQA モデルの重みを T5 モデルの初期化ポイントとして使用し、ScienceQA データセット上で微調整しました。彼らは、マルチモーダル CoT メソッドが GPT-3.5 を含む以前のすべてのベースラインを上回るパフォーマンスを示したことを観察しました。

興味深いのは、パラメータが 2 億 2,300 万しかないベース モデルでさえ、GPT-3.5 や他の Visual QA モデルよりも優れていることです。これは、マルチモーダル アーキテクチャの力を強調しています。

著者らは、2 段階アプローチが 1 段階アプローチよりも優れていることも示しています。

超越GPT 3.5的小模型来了!

#結論

この論文によってもたらされた最大の利点は、マルチモーダル機能が次のような場合に役立つことです。質問に関しては、ビジュアル機能とテキスト機能がどれほど強力であるかを使用して問題を解決します。

著者らは、視覚的特徴を活用することで、たとえ小さな言語モデル (LM) であっても、幻覚がはるかに少なく、意味のある思考連鎖/推論を生み出すことができることを示し、視覚的モデルがその役割を果たすことができることを明らかにしています。思考連鎖に基づいた学習テクノロジーの開発に取り組んでいます。

実験の結果、数百万のパラメータを犠牲にしてビジュアル機能を追加する方が、プレーン テキスト モデルを数十億のパラメータに拡張するよりも大きな価値をもたらすことがわかりました。

以上がGPT 3.5 を超える新世代の小型モデルを探索してください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles