Salesforce xgen-7b：xgen-7bの使用と微調整に関する段階的なチュートリアル-AI-php.cn

Salesforce xgen-7b：xgen-7bの使用と微調整に関する段階的なチュートリアル

William Shakespeare

リリース： 2025-03-08 11:44:09

オリジナル

131 人が閲覧しました

SalesforceのXGEN-7B：8Kコンテキストの長さを備えた強力でコンパクトなオープンソースLLM

いくつかの主要なオープンソースの大型言語モデル（LLMS）は、重要な制限に悩まされています。通常、2048トークンでキャップされた短いコンテキストウィンドウです。これは、GPT-3.5やGPT-4などの独自のモデルとは対照的であり、最大32,000トークンのコンテキストの長さを誇っています。この制約は、要約、翻訳、コード生成など、広範なコンテキストの理解を要求するタスクのパフォーマンスに大きな影響を与えます。

salesforceのxgen-7bを入力します。このモデルは、コンテキストの長さのボトルネックに真正面から取り組み、印象的な8,000トークンのコンテキストウィンドウを提供します。これは、同等のオープンソースの代替品よりも4倍です。この記事では、サンプルデータセットでXGEN-7Bの主要な機能、使用、および微調整を説明します。

なぜxgen-7b？

を選択するのか

XGEN-7Bの利点は、拡張されたコンテキストの長さを超えて拡張されます。その主な機能には、次のものが含まれます

例外的な効率：

比較的控えめな70億パラメーターにもかかわらず、XGEN-7Bは、はるかに大きなモデルに匹敵するか、それを上回るパフォーマンスを提供します。この効率により、ハイエンドのローカルマシンへの展開が可能になり、広範なクラウドコンピューティングリソースが必要になります。これにより、個々の研究者から中小企業まで、より幅広いユーザーがアクセスできるようになります。

汎用モデルバリアント：Salesforceは、多様なニーズに応えるために3つのXGEN-7Bバリアントを提供します：

xgen-7b-4k-base：

中程度のコンテキストを必要とするタスクに適した4,000トークンモデル。 Apache 2.0ライセンスに基づいてライセンス。

XGEN-7B-8K-BASE：フラッグシップ8,000トークンモデル。広範なコンテキスト分析が必要な複雑なタスクに最適です。また、Apache 2.0。
xgen-7b- {4k、8k} -inst：インタラクティブおよび教育アプリケーション用に微調整されています（非営利的な使用）。教育ツールやチャットボットに最適です。
優れたベンチマークのパフォーマンス：

長いシーケンス用に最適化：XGEN-7Bのアーキテクチャは、長いシーケンスタスクに特に最適化されています。これは、入力全体を理解することが正確でコヒーレントな出力に不可欠である場合、詳細なドキュメントの要約や包括的な質問回答などのアプリケーションにとって重要です。 salesforce xgen-7bトレーニング方法

XGEN-7Bの印象的な機能は、洗練されたトレーニングプロセスに由来しています：

ステージ1：1.37兆トークンの自然言語とコードデータの1.37兆トークンのトレーニング。

stage 2：コード生成機能を強化するための550億トークンのコードデータに関するさらなるトレーニング。 TPU-V4ハードウェアでの効率的なLLMトレーニング用に設計されたトレーニングレバレッジセールスフォースのJaxFormerライブラリ。
xgen-7b

のセットアップと実行
XGEN-7Bの実行には、ローカルに強力なマシン（32GB RAM、ハイエンドGPU）が必要です。あるいは、Google Colab Proのようなサービスは十分なリソースを提供しています

インストール：

環境をセットアップした後、必要なライブラリをインストールしてください：

最初の実行：

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
ログイン後にコピー
このコードスニペットは、8Kトークンモデルを使用した基本的な実行を示しています。
微調整XGEN-7B
微調整XGEN-7Bにはいくつかのステップが含まれます（簡潔にするために詳細な手順は省略されていますが、元のテキストは包括的なガイドを提供します）：

import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16) inputs = tokenizer("DataCamp is one he ...", return_tensors="pt") sample = model.generate(**inputs, max_length=128) print(tokenizer.decode(sample[0]))
ログイン後にコピー

インストール（上記で既にカバーされています）

必要なモジュールをインポートします（
、
、
、、）

基本モデルと微調整されたモデルの構成を定義します datasetsデータセット（例：Guanaco llama2 Dataset）をロードします transformerspefttrl
モデルとトークンザーをロードします

。
を使用してモデルを微調整します BitsAndBytesConfig微調整されたモデルを評価します

微調整されたモデルとトークンザーを保存します結論

使用するのは簡単ですが、XGEN-7Bを特定のタスクに適応させるには、データセットと計算リソースを慎重に検討する必要があります。上記のように、微調整プロセスは、この強力なLLMを特定のニーズに合わせて調整するための堅牢なフレームワークを提供します。 LLMSおよび微調整技術に関するより詳細な説明とリソースについては、提供されたリンクを忘れないでください。

以上がSalesforce xgen-7b：xgen-7bの使用と微調整に関する段階的なチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。