ホームページ > テクノロジー周辺機器 > AI > Salesforce xgen-7b:xgen-7bの使用と微調整に関する段階的なチュートリアル

Salesforce xgen-7b:xgen-7bの使用と微調整に関する段階的なチュートリアル

William Shakespeare
リリース: 2025-03-08 11:44:09
オリジナル
131 人が閲覧しました

SalesforceのXGEN-7B:8Kコンテキストの長さを備えた強力でコンパクトなオープンソースLLM

いくつかの主要なオープンソースの大型言語モデル(LLMS)は、重要な制限に悩まされています。通常、2048トークンでキャップされた短いコンテキストウィンドウです。 これは、GPT-3.5やGPT-4などの独自のモデルとは対照的であり、最大32,000トークンのコンテキストの長さを誇っています。 この制約は、要約、翻訳、コード生成など、広範なコンテキストの理解を要求するタスクのパフォーマンスに大きな影響を与えます。

salesforceのxgen-7bを入力します。このモデルは、コンテキストの長さのボトルネックに真正面から取り組み、印象的な8,000トークンのコンテキストウィンドウを提供します。これは、同等のオープンソースの代替品よりも4倍です。この記事では、サンプルデータセットでXGEN-7Bの主要な機能、使用、および微調整を説明します。

なぜxgen-7b?

を選択するのか

XGEN-7Bの利点は、拡張されたコンテキストの長さを超えて拡張されます。 その主な機能には、次のものが含まれます

例外的な効率:

比較的控えめな70億パラメーターにもかかわらず、XGEN-7Bは、はるかに大きなモデルに匹敵するか、それを上回るパフォーマンスを提供します。この効率により、ハイエンドのローカルマシンへの展開が可能になり、広範なクラウドコンピューティングリソースが必要になります。 これにより、個々の研究者から中小企業まで、より幅広いユーザーがアクセスできるようになります。

汎用モデルバリアント:Salesforceは、多様なニーズに応えるために3つのXGEN-7Bバリアントを提供します:

xgen-7b-4k-base:

中程度のコンテキストを必要とするタスクに適した4,000トークンモデル。 Apache 2.0ライセンスに基づいてライセンス。
  • XGEN-7B-8K-BASE:フラッグシップ8,000トークンモデル。広範なコンテキスト分析が必要な複雑なタスクに最適です。また、Apache 2.0。
  • でライセンスされています
  • xgen-7b- {4k、8k} -inst:インタラクティブおよび教育アプリケーション用に微調整されています(非営利的な使用)。 教育ツールやチャットボットに最適です。
  • 優れたベンチマークのパフォーマンス:
  • XGEN-7Bは、MMLUやHumanvalを含むさまざまなベンチマーク上で同様にサイズのモデルを常に上回っています。 詳細なベンチマーク結果については、公式発表を参照してください

長いシーケンス用に最適化:XGEN-7Bのアーキテクチャは、長いシーケンスタスクに特に最適化されています。これは、入力全体を理解することが正確でコヒーレントな出力に不可欠である場合、詳細なドキュメントの要約や包括的な質問回答などのアプリケーションにとって重要です。 salesforce xgen-7bトレーニング方法

XGEN-7Bの印象的な機能は、洗練されたトレーニングプロセスに由来しています:

  • ステージ1:1.37兆トークンの自然言語とコードデータの1.37兆トークンのトレーニング。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • stage 2:コード生成機能を強化するための550億トークンのコードデータに関するさらなるトレーニング。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B TPU-V4ハードウェアでの効率的なLLMトレーニング用に設計されたトレーニングレバレッジセールスフォースのJaxFormerライブラリ。
  • xgen-7b
のセットアップと実行

XGEN-7Bの実行には、ローカルに強力なマシン(32GB RAM、ハイエンドGPU)が必要です。 あるいは、Google Colab Proのようなサービスは十分なリソースを提供しています

インストール:

環境をセットアップした後、必要なライブラリをインストールしてください:

最初の実行:

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
ログイン後にコピー
このコードスニペットは、8Kトークンモデルを使用した基本的な実行を示しています。

微調整XGEN-7B

微調整XGEN-7Bにはいくつかのステップが含まれます(簡潔にするために詳細な手順は省略されていますが、元のテキストは包括的なガイドを提供します):

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)

inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)

print(tokenizer.decode(sample[0]))
ログイン後にコピー

インストール(上記で既にカバーされています)

必要なモジュールをインポートします(

  1. 基本モデルと微調整されたモデルの構成を定義します datasetsデータセット(例:Guanaco llama2 Dataset)をロードします transformerspefttrl
  2. モデルとトークンザーをロードします
  3. を使用してモデルを微調整します BitsAndBytesConfig微調整されたモデルを評価します
  4. 微調整されたモデルとトークンザーを保存します 結論
  5. 使用するのは簡単ですが、XGEN-7Bを特定のタスクに適応させるには、データセットと計算リソースを慎重に検討する必要があります。 上記のように、微調整プロセスは、この強力なLLMを特定のニーズに合わせて調整するための堅牢なフレームワークを提供します。 LLMSおよび微調整技術に関するより詳細な説明とリソースについては、提供されたリンクを忘れないでください。

以上がSalesforce xgen-7b:xgen-7bの使用と微調整に関する段階的なチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート