目次
メソッドの概要
アーキテクチャ
実験結果
ホームページ テクノロジー周辺機器 AI パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Apr 12, 2023 pm 06:10 PM
パラメータ モデル

大規模言語モデル (LLM) は、少数の例で新しいタスクを学習したり、単純な命令だけで学習したりできる小規模なサンプル学習器として理解できます。モデル パラメーターの数は、言語モデルのサイズに応じてスケーリングされます。トレーニング データは、モデルの一般化能力の鍵となります。 LLM のこの向上は、コンピューティング能力とストレージ機能の向上によるものです。直感的には、推論機能が向上すると一般化が向上し、サンプル学習が少なくなりますが、効果的な小規模サンプル学習にモデル パラメーターに関する広範な知識がどの程度必要かは不明です。

これまでのところ、検索強化モデルは、説得力のある小サンプル学習機能を実証していません。論文の中で、Meta AI Researchやその他の機関の研究者らは、小規模サンプル学習ではモデルがパラメータに大量の情報を保存する必要があるのか​​、またストレージを一般化から切り離すことができるのかどうかを尋ねている。彼らは、現在の他の強力な小サンプル学習モデルよりもパラメーターの数が少ないにもかかわらず、強力な小サンプル学習機能を備えた検索強化言語モデルの一種である Atlas を提案しました。

モデルはノンパラメトリック ストレージを使用します。つまり、大規模な外部の非静的知識ソースに基づくニューラル リトリーバーを使用して、パラメトリック言語モデルを強化します。このようなアーキテクチャは、ストレージ機能に加えて、適応性、解釈可能性、効率性の面でも優れているため魅力的です。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

論文アドレス: https://arxiv.org/pdf/2208.03299.pdf

Atlas 関連ドキュメントの取得は、Contriever デュアル エンコーダ アーキテクチャに基づいたユニバーサル密度取得ツールです。ファイルを取得する際、現在のコンテキストに基づいて関連ファイルを取得します。取得されたドキュメントと現在のコンテキストは、Fusion-in-Decoder アーキテクチャを使用するシーケンスツーシーケンス モデルによって処理され、対応する出力が生成されます。

著者らは、質問応答やファクトチェックなど、さまざまな下流タスクにおける小規模データセットでの Atlas トレーニングのパフォーマンスに対するさまざまな手法の影響を研究しています。研究では、共同事前トレーニング コンポーネントが小規模サンプルのパフォーマンスにとって重要であることが判明し、著者らは多くの既存および新規の事前トレーニング タスクとスキームを評価しました。Atlas は、小規模サンプル環境とリソースが豊富な環境の両方で強力なダウンストリーム パフォーマンスを発揮します。

Atlas は、わずか 110 億のパラメータで、64 のトレーニング サンプルを使用した NaturalQuestions (NQ) で 42.4% の精度を達成しました。これは、5400 億のパラメータ モデル PaLM (39.6%) よりも 3 パーセント近く高い精度です。 、フル データ セット設定 (フル) では 64.0% の精度に達します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Yann LeCun 氏は次のように述べています。Q&A と Facts Beats で、Atlas は大きすぎない言語モデル (11B パラメータ)検証における「偉い人」。 Atlas の主な違いは、コーパスからファクトを取得できることです。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

メソッドの概要

Atlas はテキスト間フレームワークに従います。これは、すべてのタスクの一般的なフレームワークが次のとおりであることを意味します。システムはテキスト クエリを入力として受け取り、テキスト出力を生成します。たとえば、質問と回答のタスクの場合、クエリは質問に対応し、モデルは回答を生成する必要があります。分類タスクの場合、クエリはテキスト入力に対応し、モデルはクラス ラベル、つまりラベルに対応する単語を生成します。図 2 の KILT ベンチマークは、ダウンストリーム タスクの例をさらに示しています。多くの自然言語処理タスクには知識が必要です。Atlas は、小規模なサンプル シナリオで学習するモデルの能力にとって検索が重要である可能性があるため、標準的なテキスト間モデルを検索で強化することを目指しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

アーキテクチャ

Atlas モデルは、レトリバーと言語という 2 つのサブモデルに基づいています。モデル。質問応答から Wikipedia 記事の生成までのタスクを実行するとき、モデルはまず検索ツールを介して大規模なテキスト コーパスから上位 k 個の関連文書を取得します。これらのドキュメントはクエリとともに言語モデルへの入力として与えられ、出力が生成されます。レトリーバーと言語モデルは両方とも、事前にトレーニングされたトランスフォーマー ネットワークに基づいています。これについては、以下で詳しく説明します。

取得: Atlas の取得モジュールは、連続密度埋め込みに基づく情報取得テクノロジである Contriever に基づいています。 Contriever は、クエリとドキュメントがトランスフォーマー エンコーダーによって独立して埋め込まれるデュアル エンコーダー アーキテクチャを使用しています。平均プーリングは最後の層の出力に適用され、各クエリまたはドキュメントのベクトル表現が取得されます。次に、クエリと各ドキュメント間の相互埋め込みの内積を計算することにより、それらの類似性スコアが取得されます。 Contriever モデルは MoCo 対比損失を使用して事前トレーニングされており、教師なしデータのみを使用します。密度レトリーバーの利点の 1 つは、勾配降下法や蒸留などの標準的な手法を使用して、ドキュメントの注釈なしでクエリ エンコーダーとドキュメント エンコーダーの両方をトレーニングできることです。

言語モデル: 言語モデルに関して、Atlas は T5 シーケンスツーシーケンス アーキテクチャに依存しています。このモデルは、シーケンスツーシーケンス モデルの Fusion-in-Decoder 修正にも依存しており、エンコーダー内で各ドキュメントを個別に処理します。次にモデルは、さまざまなドキュメントに対応するエンコーダーの出力を連結し、デコーダー内の単一シーケンスに対してクロスアテンションを実行します。モデルは、クエリをエンコーダー内の各ドキュメントに接続します。言語モデルで取得したドキュメントを処理するもう 1 つの方法は、クエリとすべてのドキュメントを連結し、この長いシーケンスをモデルへの入力として使用することです。しかし、この方法は拡張性が低く、つまり、エンコーダーのセルフアテンション メカニズムにより時間計算量が O(n^2) になるため、ドキュメントの数が増加しても拡張できなくなります (n はドキュメントの数です)。書類)。

実験結果

著者らは、NaturalQuestions と TriviaQA という 2 つのオープンドメインの質問回答ベンチマークで Atlas を評価しています。また、64 個のサンプルからなる小規模なサンプル データ セットと完全なトレーニング セットを使用して、以前の研究と比較しました。詳細な比較を以下の表に示します。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

NaturalQuestions と TriviaQA を使用した 64 ショットの質問応答で最高のパフォーマンスを発揮します。特に、より大きなモデル (PaLM) や、より多くのトレーニング計算を必要とするモデル (Chinchilla) よりも優れたパフォーマンスを発揮します。また、Atlas は、NaturalQuestions の精度を 55.9% から 60.4% に向上させるなど、トレーニング セット全体を使用したときに最適な結果を達成することもできます。この結果は、CCNet と 2021 年 12 月の Wikipedia コーパスから構成されるインデックスを使用して、Atlas のデフォルト設定の下で取得されました。以下の表は、ファクトチェック データセット FEVER のテスト結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットの場合、トレーニング サンプルは完全なトレーニング セットからサンプリングされます。 Atlas は 64.3% の精度を達成しました。 15 ショットの場合、各クラスから 5 つのサンプルが均一にサンプリングされており、Gopher の結果と比較すると、Atlas の精度は 56.2% で、Gopher よりも 5.1 ポイント高くなります。 Atlas モデルは完全なトレーニング セットで微調整され、ProoFVer よりも 1.5​​% 低い 78% の精度を達成しました。 ProoFVer は、特殊なアーキテクチャを使用して文レベルの注釈を付けて取得者をトレーニングし、FEVER で公開されている Wikipedia コーパスによって提供されますが、Atlas は CCNet と 2021 年 12 月の Wikipedia ダンプから取得します。 FEVER Wikipedia コーパスからなるインデックスを与えると、Atlas は 80.1% という最適レベルを達成しました。

Atlas のパフォーマンスを検証するために、Atlas は、いくつかの異なる知識集約型タスクで構成されるベンチマークである KILT で評価されました。以下の表は、テスト セットの結果を示しています。

パラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破る

Atlas 64 ショットは、実験においてランダム アルゴリズムをはるかに上回り、リーダーボードのいくつかの微調整されたアルゴリズムにも匹敵しました。モデルは同等です。たとえば、FEVER では、Atlas 64 ショットは Sphere、SEAL、Re2G に 2 ~ 2.5 ポイントの差しかありませんが、ゼロショット RE では、Sphere と SEAL を上回ります。データセット全体では、Atlas のパフォーマンスは 3 つのデータセットで最高のモデルの 3% 以内ですが、残りの 5 つのデータセットでは最高です。

以上がパラメータ数は1/50、Metaが110億パラメータモデルをリリース、Google PaLMを破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

See all articles