ホームページ テクノロジー周辺機器 AI メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

Apr 18, 2024 pm 03:40 PM
git meta プロジェクト 配置

Google に続いて、Meta も無限に長いコンテキストをロールするようになりました。

トランスフォーマーの二次複雑さと弱い長さの外挿により、長いシーケンスにスケールする能力が制限されます。ただし、二次解などの線形注意力や状態空間モデルはありますが、過去の経験から、トレーニング前の効率と下流のタスクの精度の点でパフォーマンスが低くなります。

最近、Google が提案した Infini-Transformer は、ストレージやコンピューティング要件を増加させることなく、Transformer ベースの大規模言語モデル (LLM) を無限に長い入力に拡張する効果的な方法を導入し、注目を集めています。

ほぼ同時に、Meta は無限長テキスト技術も提案しました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

  • 論文のアドレス: https://arxiv.org/pdf/2404.08801.pdf

  • 論文タイトル: MEGALODON: 無制限のコンテキスト長による効率的な LLM の事前トレーニングと推論

  • コード: https://github.com/XuezheMax/megalodon

4 月 12 日に提出された論文では、メタ、南カリフォルニア大学、CMU、UCSD などの機関が、無制限のコンテキスト長で効率的なシーケンス モデリングのためのニューラル アーキテクチャである MEGALODON を紹介しました。

MEGALODON は、MEGA (ゲート付き注意付き指数移動平均) の構造をさらに開発し、その機能と安定性を向上させるために、複雑な指数移動平均 (CEMA)、タイムステップ正規化レイヤー、正規化された注意メカニズムと、2 つの特徴を持つ事前正規化された残留接続。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

LLAMA2 と直接比較すると、70 億のパラメーターと 2 兆のトレーニング トークンの規模で、MEGALODON は Transformer よりも優れた効率を達成しています。 MEGALODON のトレーニング損失は 1.70 に達します。これは、LLAMA2-7B (1.75) と 13B (1.67) の間です。 Transformers に対する MEGALODON の改良により、さまざまなタスクやモダリティにわたるさまざまなベンチマークにわたって強力なパフォーマンスが示されています。

MEGALODON は本質的に改良された MEGA アーキテクチャ (Ma et al., 2023) であり、ゲート アテンション メカニズムと古典的な指数移動平均 (EMA) 法を利用しています。大規模で長いコンテキストの事前トレーニングにおける MEGALODON の機能と効率をさらに向上させるために、著者らはさまざまな技術コンポーネントを提案しました。まず、MEGALODON は、MEGA の多次元減衰 EMA を複素領域に拡張する複素指数移動平均 (CEMA) コンポーネントを導入します。第 2 に、MEGALODON はタイムステップ正規化層を提案します。これは、グループ正規化層を自己回帰シーケンス モデリング タスクに一般化して、逐次次元に沿った正規化を可能にします。

大規模な事前トレーニングの安定性を向上させるために、MEGALODON はさらに、広く採用されている事前正規化方法と事後正規化方法を変更することにより、正規化されたアテンションと 2 ホップの残差構成を提案します。 -正規化。 MEGA チャンクで行われるように、入力シーケンスを固定チャンクに分割するだけで、MEGALODON はモデルのトレーニングと推論において線形の計算とメモリの複雑さを実現します。

LLAMA2 と直接比較すると、データと計算を制御しながら、MEGALODON-7B は、トレーニングの複雑さの点で、LLAMA2-7B のトレーニングに使用された最先端の Transformer バリアントよりも大幅に優れています。最大 2M までのさまざまなコンテキスト長での混乱やスクロールでの長いコンテキストの QA タスクを含む、長いコンテキストのモデリングに関する評価は、無限長のシーケンスをモデル化する MEGALODON の能力を実証します。 LRA、ImageNet、音声コマンド、WikiText-103、PG19 などの中小規模のベンチマークに関する追加の実験結果は、ボリュームとマルチモダリティにおける MEGALODON の機能を実証しています。

方法の紹介

まず、この記事では、MEGA (Moving Average Equipment Gated tention) アーキテクチャの主要コンポーネントを簡単にレビューし、MEGA に存在する問題について説明します。

MEGA は、EMA (指数移動平均) コンポーネントをアテンション マトリックスの計算に埋め込んで、タイム ステップ次元全体にわたる誘導バイアスを組み込みます。具体的には、多次元減衰EMAは、まず行列メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースを拡張することによって入力シーケンスXの各次元を個別にh次元に拡張し、次に減衰EMAをh次元の隠れ空間に適用します。形式は次のとおりです。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#フル アテンション メカニズムの 2 次の複雑さを軽減するために、MEGA はクエリ、キー、および値のシーケンスを (14-16) に単純に分割します。 ) は長さ c のブロックです。 (17) の注意は各ブロックに個別に適用され、線形複雑度 O (kc^2 ) = O (nc) が得られます。

技術的に言えば、MEGA の EMA サブレイヤーは、各トークン付近のローカル コンテキスト情報をキャプチャするのに役立ち、それによってブロック境界を越えてコンテキスト内の情報が失われる問題を軽減します。 MEGA は目覚ましい結果を達成しましたが、次の問題に直面しています:

i) MEGA の EMA サブレイヤーの表現力が限られているため、ブロックレベルの注意を伴う MEGA のパフォーマンスは、完全な MEGA のパフォーマンスに依然として及ばない-注目のメガ。

ii) タスクやデータ型が異なると、正規化層、正規化モード、アテンション関数 f (・) など、最終的な MEGA アーキテクチャにアーキテクチャ上の違いが生じる可能性があります。

iii) MEGA が大規模な事前トレーニングに対応するという経験的証拠はありません。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#CEMA: 多次元減衰 EMA を複雑な領域に拡張

解決するにはMEGA が直面する問題 この研究で提起された問題は MEGALODON でした。

具体的には、彼らは CEMA (複素指数移動平均) を創造的に提案し、上記の式 (1) を次の形式に書き換えました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

そして θ_j をパラメータ化します。 (2) として:

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#タイムステップ正規化

Transformer と組み合わせたレイヤー正規化のパフォーマンスは印象的ですが、明らかです。その層の正規化は、空間次元 (タイム ステップまたはシーケンス次元とも呼ばれます) に沿った内部共変量シフトを直接減らすことはできません。

MEGALODON では、この研究では、累積平均と分散を計算することにより、グループ正規化を自己回帰ケースに拡張しました。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース 図 2 は、層の正規化とタイム ステップの正規化を示しています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

MEGALODON における注意の正規化

さらに、この研究では、安定性を向上させるために、MEGA 注意メカニズムに特化してカスタマイズされた正規化も提案しています。形式は次のとおりです。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース 次に、上記の式 (17) のアテンション演算は次のように変更されます。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

2 ホップ残差による事前正規化

#調査を通じて、モデル サイズを拡大すると正規化前の不安定性が生じることが判明しました。 Transformer ブロックに基づく事前正規化は、次のように表現できます (図 3 (b) を参照): 元の文では

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース MEGA アーキテクチャでは、この問題を軽減するために、ゲートされた残留接続 (21) で φ (19) が使用されます。ただし、更新ゲート φ によってさらに多くのモデル パラメーターが導入されるため、モデル サイズが 70 億に拡張された場合でも不安定性の問題が依然として存在します。 MEGALODON は、図 3(c) に示すように、各ブロック内の残差接続を単純に再配置する、2 ホップ残差を備えたプレノルムと呼ばれる新しい構成を導入しています。

##実験

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

ロング コンテキスト シーケンス モデリングにおける MEGALODON のスケーラビリティと効率を評価するために、この記事では MEGALODON を 70 億スケールにスケールします。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

LLM 事前トレーニング

データ効率を向上させるために、研究者らは、MEGALODON-7B、LLAMA2-7B、および LLAMA2-13B の負の対数類似性をトレーニング中に示しました。ただし、図 1 に示すように、トレーニング プロセス (NLL)。

同じ数のトレーニング トークンの下で、MEGALODON-7B は LLAMA2-7B よりも大幅に優れた (低い) NLL を取得し、より優れたデータ効率を示しました。

図 4 は、それぞれ 4K と 32K のコンテキスト長を使用した LLAMA2-7B と MEGALODON-7B のデバイスあたりの平均 WPS (1 秒あたりのワード/トークン) を示しています。 LLAMA2 モデルの場合、この研究では Flash-Attendance V2 を使用して完全な注意の計算を高速化しています。 4K コンテキスト長では、CEMA とタイム ステップ正規化の導入により、MEGALODON-7B は LLAMA2-7B よりわずかに遅くなります (約 6%)。コンテキスト長を 32K に拡張すると、MEGALODON-7B は LLAMA2-7B よりも大幅に高速になり (約 32%)、これは長いコンテキストの事前トレーニングに対する MEGALODON の計算効率を示しています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

短いコンテキスト評価

表 1 は、学術ベンチマークおよび他のオープンソース ベースにおける MEGALODON と LLAMA2 の結果をまとめたものです。モデル、MPT、RWKV、Mamba、Mistral、Gemma の比較結果が含まれます。同じ 2T トークンで事前トレーニングした後、MEGALODON-7B はすべてのベンチマークで LLAMA2-7B を上回りました。一部のタスクでは、MEGALODON-7B のパフォーマンスは LLAMA2-13B と同等かそれ以上です。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#長いコンテキストの評価

図 5 は、4K から 2M までのさまざまなコンテキスト長 (PPL) の下での検証データ セットの複雑さを示しています。 )。 PPL がコンテキストの長さとともに単調に減少することが観察でき、非常に長いシーケンスのモデリングにおける MEGALODON の有効性と堅牢性が検証されます。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

#命令の微調整

表 3 は、MT-Bench での 7B モデルのパフォーマンスをまとめたものです。 MEGALODON は、Vicuna と比較して MT-Bench で優れたパフォーマンスを示し、RLHF を利用してアライメントをさらに微調整する LLAMA2-Chat に匹敵します。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース

中規模ベンチマーク評価

画像分類タスクにおける MEGALODON のパフォーマンスを評価するために、この調査は Imagenet で実行されました。 -1K データセットで実験が行われました。表 4 は、検証セットのトップ 1 精度を報告します。 MEGALODON の精度は DeiT-B より 1.3%、MEGA より 0.8% 高くなります。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース表 5 は、PG-19 上の MEGALODON のワードレベルの複雑さ (PPL) と、Compressive Transformer を含む以前の最先端のモデルとの比較を示しています。 、パーシーバー AR、AR のパーシーバー比較、ブロック ループ Transformer と MEGABYTE など。 MEGALODONのパフォーマンスは明らかに上を行っています。

メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース詳細については、論文の原文を参照してください。

以上がメタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Gitプロジェクトをローカルにダウンロードする方法 Gitプロジェクトをローカルにダウンロードする方法 Apr 17, 2025 pm 04:36 PM

gitを介してローカルにプロジェクトをダウンロードするには、次の手順に従ってください。gitをインストールします。プロジェクトディレクトリに移動します。次のコマンドを使用してリモートリポジトリのクローニング:git clone https://github.com/username/repository-name.git

gitコミットの使用方法 gitコミットの使用方法 Apr 17, 2025 pm 03:57 PM

GITコミットは、プロジェクトの現在の状態のスナップショットを保存するために、ファイルの変更をGITリポジトリに記録するコマンドです。使用方法は次のとおりです。一時的なストレージエリアに変更を追加する簡潔で有益な提出メッセージを書き込み、送信メッセージを保存して終了して送信を完了します。

gitでコードを更新する方法 gitでコードを更新する方法 Apr 17, 2025 pm 04:45 PM

GITコードを更新する手順:コードをチェックしてください:gitクローンhttps://github.com/username/repo.git最新の変更を取得:gitフェッチマージの変更:gitマージオリジン/マスタープッシュ変更(オプション):gitプッシュオリジンマスター

Gitダウンロードがアクティブでない場合はどうすればよいですか Gitダウンロードがアクティブでない場合はどうすればよいですか Apr 17, 2025 pm 04:54 PM

解決:gitのダウンロード速度が遅い場合、次の手順を実行できます。ネットワーク接続を確認し、接続方法を切り替えてみてください。 GIT構成の最適化:ポストバッファーサイズ(Git Config -Global HTTP.Postbuffer 524288000)を増やし、低速制限(GIT Config -Global HTTP.LowsPeedLimit 1000)を減らします。 Gitプロキシ(Git-ProxyやGit-LFS-Proxyなど)を使用します。別のGitクライアント(SourcetreeやGithubデスクトップなど)を使用してみてください。防火を確認してください

gitでコードをマージする方法 gitでコードをマージする方法 Apr 17, 2025 pm 04:39 PM

gitコードマージプロセス:競合を避けるために最新の変更を引き出します。マージするブランチに切り替えます。マージを開始し、ブランチをマージするように指定します。競合のマージ(ある場合)を解決します。ステージングとコミットマージ、コミットメッセージを提供します。

GITでリポジトリを削除する方法 GITでリポジトリを削除する方法 Apr 17, 2025 pm 04:03 PM

gitリポジトリを削除するには、次の手順に従ってください。削除するリポジトリを確認します。リポジトリのローカル削除:RM -RFコマンドを使用して、フォルダーを削除します。倉庫をリモートで削除する:倉庫の設定に移動し、「倉庫の削除」オプションを見つけて、操作を確認します。

PHPプロジェクトで効率的な検索問題を解決する方法は?タイプセンスはあなたがそれを達成するのに役立ちます! PHPプロジェクトで効率的な検索問題を解決する方法は?タイプセンスはあなたがそれを達成するのに役立ちます! Apr 17, 2025 pm 08:15 PM

eコマースのウェブサイトを開発するとき、私は困難な問題に遭遇しました:大量の製品データで効率的な検索機能を達成する方法は?従来のデータベース検索は非効率的であり、ユーザーエクスペリエンスが低いです。いくつかの調査の後、私は検索エンジンタイプセンスを発見し、公式のPHPクライアントタイプセンス/タイプセンス-PHPを通じてこの問題を解決し、検索パフォーマンスを大幅に改善しました。

Gitでローカルコードを更新する方法 Gitでローカルコードを更新する方法 Apr 17, 2025 pm 04:48 PM

ローカルGitコードを更新する方法は? Git Fetchを使用して、リモートリポジトリから最新の変更を引き出します。 Git Merge Origin/<リモートブランチ名>を使用して、地元のブランチへのリモート変更をマージします。合併から生じる競合を解決します。 Git Commit -M "Merge Branch< Remote Branch Name>"を使用してください。マージの変更を送信し、更新を適用します。

See all articles