58 行のコードは Llama 3 から 100 万コンテキストまで拡張可能、あらゆる微調整バージョンが適用可能-AI-php.cn

ホームページ

テクノロジー周辺機器

58 行のコードは Llama 3 から 100 万コンテキストまで拡張可能、あらゆる微調整バージョンが適用可能

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 06, 2024 pm 06:10 PM

git データモデル

Llama 3、オープンソースの雄大な王様、オリジナルのコンテキストウィンドウは、実際には...8k しかありません。これには「本当に」という言葉を飲み込みました。おいしい」とまた口元に。。

現在、32k が開始点であり、100k が一般的ですが、これはオープンソースコミュニティへの貢献の余地を意図的に残しているのでしょうか?

オープンソースコミュニティは、この機会を決して逃すことはありません:

わずか 58 行のコードで、Llama 3 70b の微調整されたバージョンであれば、 1048k(100万)コンテキストは自動的に拡張されます。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

# 舞台裏には、コンテキストを拡張する Llama 3 70B 命令の微調整バージョンから抽出された LoRA があります。

ファイルはわずか 800mb です。

次に、Mergekit を使用して、同じアーキテクチャの他のモデルで実行したり、モデルに直接マージしたりできます。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

使用された 1048k コンテキストの微調整バージョンは、人気の干し草の山に針を入れるテストでオールグリーン (精度 100%) のスコアを達成しました。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

オープンソースの進歩のスピードは指数関数的であると言わざるを得ません。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

1048k コンテキスト LoRA の作成方法

まず、Llama 3 微調整モデルの 1048k コンテキストバージョンは

Gradient AI から来ています。はエンタープライズ AI ソリューションのスタートアップです。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

対応する LoRA は、開発者

Eric Hartford によるもので、微調整されたモデルと元のバージョンの違いを比較します。、パラメータはさまざまに抽出されます。

彼は最初に 524k コンテキストバージョンを作成し、次に 1048k バージョンを更新しました。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

まず、Gradient チームはオリジナルの Llama 3 70B Instruct に基づいてトレーニングを継続し、Llama-3-70B-Instruct-Gradient-1048k を取得しました。

具体的な方法は次のとおりです:

位置エンコーディングの調整: RoPE theta を NTK で初期化します。意識的な補間最適なスケジューリング、長さを延長した後の高周波情報の損失を防ぐための最適化
プログレッシブトレーニング: カリフォルニア大学バークレー校によって提案Pieter Abbeel チーム Blockwise RingAttendance メソッドはモデルのコンテキスト長を拡張します

チームがカスタムネットワークトポロジを通じて Ring Attendance の上に並列化を階層化し、大規模な GPU クラスターをより有効に利用して対処していることは注目に値します。デバイス間でのネットワークボトルネックは、ノード間で多くの KV ブロックを転送することによって引き起こされます。

最終的に、モデルのトレーニング速度は 33 倍に向上しました。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

#長文検索の性能評価では、最難関バージョンに限り、文章の途中に「針」が隠れている場合にエラーが発生しやすくなります。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

拡張コンテキストを含む微調整モデルを取得した後、オープンソースツール Mergekit を使用して、微調整モデルと基本モデルを作成し、パラメータの差分をLoRAとして抽出します。

また、Mergekit を使用すると、抽出された LoRA を同じアーキテクチャを持つ他のモデルにマージできます。

マージコードも、Eric Hartford によって GitHub でオープンソース化されており、わずか 58 行です。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

この LoRA マージが中国語用に微調整された Llama 3 で機能するかどうかは不明です。

しかし、中国の開発者コミュニティがこの開発に注目していることがわかります。

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

#524k バージョン LoRA: https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k バージョン LoRA: https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

# #マージコード:

https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

以上が58 行のコードは Llama 3 から 100 万コンテキストまで拡張可能、あらゆる微調整バージョンが適用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7333

Java チュートリアル

1627

CakePHP チュートリアル

1351

Laravel チュートリアル

1262

PHP チュートリアル

1209

Related knowledge

DeepSeekをインストールする方法 Feb 19, 2025 pm 05:48 PM

DeepSeekをインストールするには、Dockerコンテナ（最も便利な場合は、互換性について心配する必要はありません）を使用して、事前コンパイルパッケージ（Windowsユーザー向け）を使用してソースからコンパイル（経験豊富な開発者向け）を含む多くの方法があります。公式文書は慎重に文書化され、不必要なトラブルを避けるために完全に準備します。

DeepSeek使用のためのFAQの概要 Feb 19, 2025 pm 03:45 PM

Deepseekai ToolユーザーガイドとFAQ Deepseekは、強力なAIインテリジェントツールです。 FAQ：異なるアクセス方法の違い：Webバージョン、アプリバージョン、API呼び出しの間に機能に違いはありません。アプリは、Webバージョンのラッパーにすぎません。ローカル展開は蒸留モデルを使用します。これは、DeepSeek-R1のフルバージョンよりもわずかに劣っていますが、32ビットモデルには理論的には90％のフルバージョン機能があります。居酒屋とは何ですか？ Sillytavernは、APIまたはOllamaを介してAIモデルを呼び出す必要があるフロントエンドインターフェイスです。壊れた制限とは何ですか

AIツールとは何ですか？ Nov 29, 2024 am 11:11 AM

AI ツールには、Doubao、ChatGPT、Gemini、BlenderBot などが含まれます。

Grayscale Encryption Trust Fundsとは何ですか？ Mar 05, 2025 pm 12:33 PM

グレイスケール投資：機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment（2013年にDigitalCurrencyGroupによって設立された）で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH（ZEC）、SOL、

トップマーケットメーカーが暗号市場に参入すると、キャッスル証券は業界にどのような影響を与えますか？ Mar 04, 2025 pm 08:03 PM

トップマーケットメーカーのキャッスル証券のビットコインマーケットメーカーへの参入は、ビットコイン市場の成熟度の象徴であり、将来の資産価格設定力を競うための従来の金融勢力の重要なステップです。ブルームバーグによると、2月25日、シタデル証券は暗号通貨の流動性プロバイダーになろうとしています。同社は、Coinbaseglobal、Binanceholdings、Crypto.comが運営する取引所など、さまざまな取引所でマーケットメーカーのリストに参加することを目指していると、この問題に精通している人々は述べています。取引所によって承認されると、当社は当初、米国外にマーケットメーカーチームを設立することを計画していました。この動きは標識だけではありません

Delphi Digital：新しいElizaos V2アーキテクチャを解析することにより、新しいAIエコノミーを変更する方法は？ Mar 04, 2025 pm 07:00 PM

ElizaOSV2：AIのエンパワーメントAIは、補助ツールから独立したエンティティに進化しています。この記事では、ElizaOSV2の主要な革新と、AI主導の将来の経済をどのように形成するかについて説明します。 AIオートメーション：Elizaosを独立して操作することは、もともとWeb3オートメーションに焦点を当てたAIフレームワークでした。 V1バージョンを使用すると、AIはスマートコントラクトとブロックチェーンデータと対話できますが、V2バージョンは大幅なパフォーマンスの改善を実現します。単純な指示を実行する代わりに、AIはワークフローを独立して管理し、ビジネスを運営し、財務戦略を開発することができます。アーキテクチャのアップグレード：強化a

SFTを大幅に超えて、O1/DeepSeek-R1の背後にある秘密は、マルチモーダルの大規模モデルでも使用できます Mar 12, 2025 pm 01:03 PM

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model（LVLM）のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT（視覚エンハンスメントファインチューニング）オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整（RFT）パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

ビットワイズ：企業はビットコインを無視された大きな傾向を購入します Mar 05, 2025 pm 02:42 PM

毎週の観察：ビットコインを蓄えている企業 - 醸造の変化毎週のメモの見落とされがちな市場動向をよく指摘します。 MicroStrategyの動きは厳しい例です。多くの人は、「マイクロストラテジーとマイケルセイリャーはすでによく知られていますが、これは真実ですが、多くの投資家はそれを特別なケースと見なし、その背後にあるより深い市場の力を無視しています。このビューは片側です。ここ数ヶ月の予備資産としてのビットコインの採用に関する詳細な研究は、これが孤立したケースではなく、出現している主要な傾向であることを示しています。今後12〜18か月で、何百もの企業が訴訟を起こし、大量のビットコインを購入すると予測しています

See all articles

58 行のコードは Llama 3 から 100 万コンテキストまで拡張可能、あらゆる微調整バージョンが適用可能

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック