LLaMA2 コンテキストの長さは 100 万トークンにまで急増し、調整する必要があるハイパーパラメータは 1 つだけです。
ほんの少し調整するだけで、大規模モデルのサポート コンテキスト サイズを 16,000 トークンから 100 万 に拡張できます。 !
まだ LLaMA 2 を使用していますが、パラメーターは 70 億しかありません。
最も人気のある Claude 2 と GPT-4 でさえ、コンテキスト長が 100,000 と 32,000 しかサポートしていないことを知っておく必要があります。この範囲を超えると、大規模なモデルは無意味なことを話し始め、物事を記憶できなくなります。
さて、復旦大学と上海人工知能研究所による新しい研究では、一連の大規模モデルのコンテキスト ウィンドウの長さを増やす方法を発見しただけでなく、ルール##も発見しました。 #。
は 1 つのハイパーパラメータを調整するだけで済み、 は大規模モデルを安定して改善しながら出力効果を確保できます 外挿パフォーマンス。 外挿とは、大規模モデルの入力長が事前トレーニングされたテキストの長さを超えた場合の出力パフォーマンスの変化を指します。外挿能力が良くない場合、入力の長さが事前トレーニングされたテキストの長さを超えると、大規模なモデルは「意味のないことを話す」ことになります。
それでは、大規模モデルの外挿機能を正確にどのように改善できるのでしょうか?また、どのように実現するのでしょうか?大規模モデルの外挿能力を向上させる「仕組み」
大規模モデルの外挿能力を向上させるこの方法は、Transformer アーキテクチャにおける位置コーディング
と同じです。 . モジュール関連。実際、単純なアテンション メカニズム (アテンション) モジュールでは、異なる位置にあるトークンを区別することができません。たとえば、「私はリンゴを食べる」と「リンゴが私を食べる」は目に違いがありません。
したがって、語順情報を理解して文の意味を真に理解できるようにするには、位置コーディングを追加する必要があります。 現在の Transformer の位置エンコード方法には、絶対位置エンコード (位置情報を入力に統合)、相対位置エンコード (位置情報をアテンション スコア計算に書き込む)、回転位置エンコードが含まれます。その中で最もよく使われているのは、回転位置エンコーディングであるRoPE
です。RoPE は、絶対位置エンコードを通じて相対位置エンコードの効果を実現しますが、相対位置エンコードと比較して、大規模モデルの外挿可能性をより向上させることができます。
RoPE 位置エンコーディングを使用して大規模モデルの外挿機能をさらに刺激する方法が、最近の多くの研究の新しい方向性になりました。 これらの研究は、主に注意力の制限
と回転角度の調整 という 2 つの主要な学派に分かれています。 注意力の制限に関する代表的な研究には、ALiBi、xPos、BCA などが含まれます。 MIT によって最近提案された StreamingLLM は、大規模なモデルが無限の入力長を達成できるようにします (ただし、コンテキスト ウィンドウの長さは増加しません)。これは、この方向の研究の種類に属します。
△ソース作成者△画像ソース作者
Meta の最近人気の LLaMA2 Long 研究を例として、RoPE ABF Method と呼ばれる手法を提案しました。ハイパーパラメータとして、大規模モデルのコンテキスト長が
32,000 トークン まで正常に拡張されました。
このハイパーパラメータは、Code LLaMA および LLaMA2 Long らによって発見された "スイッチ" とまったく同じです。——
回転角 Base(base ) 。
これを微調整するだけで、大規模モデルの外挿パフォーマンスが確実に向上します。 ただし、Code LLaMA であっても LLaMA2 Long であっても、外挿機能を強化するために、特定のベースと継続的なトレーニングの長さに基づいて微調整されるだけです。
RoPE 位置エンコーディングを使用する
すべての大規模モデルで外挿パフォーマンスを確実に向上させるパターンを見つけることは可能でしょうか?
このルールをマスターすれば、文脈は簡単です 100w 復旦大学と上海 AI 研究所の研究者は、この問題について実験を行いました。
彼らはまず、RoPE 外挿能力に影響を与えるいくつかのパラメータを分析し、
Critical Dimension(Critical Dimension) と呼ばれる概念を提案し、この概念に基づいて、
のセットを結論付けました。 RoPE 外挿スケーリング則(RoPE ベースの外挿のスケーリング則)。 この ルール を適用するだけで、RoPE 位置エンコーディングに基づく大規模モデルで外挿機能が向上します。
まず、クリティカル ディメンションとは何かを見てみましょう。
定義より、学習前テキスト長Ttrain、自注目頭寸法数d等のパラメータに関係し、具体的な計算方法は以下の通りです。 ##このうち、10000はハイパーパラメータと回転角ベースの「初期値」です。
著者は、底面を拡大しても縮小しても、最終的に RoPE に基づく大型モデルの外挿能力を高めることができることを発見しました。大型モデルの能力は最高ですが、悪いです。
この論文では、回転角のベースが小さいほど、より多くの次元が位置情報を認識できるようになり、回転角のベースが大きいほど、より多くの次元が位置情報を認識できると考えています。より長い位置情報を表現できるようになります。
この場合、さまざまな長さの継続的なトレーニング コーパスに直面するとき、大きなコーパスの外挿能力を確保するには、回転角度ベースをどれだけ縮小および拡大する必要がありますか。モデルはどこまで最大化されますか?
この論文では、限界寸法、継続トレーニング テキストの長さ、大規模モデルのトレーニング前テキスト長などのパラメーターに関連する拡張 RoPE 外挿のスケーリング ルールを示しています。
このルールに基づいて、大規模モデルの外挿パフォーマンスは、さまざまな事前トレーニングおよび継続トレーニングのテキスト長に基づいて直接計算できます。言い換えれば、大規模モデルがサポートするコンテキスト長が予測されます。
紙のアドレス:
https://arxiv.org/abs/2310.05209
Github リポジトリ:
https://github.com/OpenLMLab/scaling-rope
論文分析ブログ:
https://zhuanlan.zhihu.com/p/660073229
以上がLLaMA2 コンテキストの長さは 100 万トークンにまで急増し、調整する必要があるハイパーパラメータは 1 つだけです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータ リストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる
