Salesforce XGEN-7B：關於使用和微調XGEN-7B的分步教程-人工智慧-PHP中文網

Salesforce XGEN-7B：關於使用和微調XGEN-7B的分步教程

William Shakespeare

發布： 2025-03-08 11:44:09

原創

127 人瀏覽過

> Salesforce的XGEN-7B：一個功能強大的，緊湊的開源LLM，具有8K上下文長度

>幾種領先的開源大型語言模型（LLMS）受到了一個重要的限制：短上下文窗口，通常限制為2048代幣。這與諸如GPT-3.5和GPT-4（GPT-4）的專有模型形成鮮明對比，具有高達32,000個令牌的上下文長度。這種限制嚴重影響了需要廣泛上下文理解的任務的性能，例如匯總，翻譯和代碼生成。

輸入Salesforce的XGEN-7B。該型號可以正面處理上下文長度瓶頸，提供了令人印象深刻的8,000個上下文窗口 - 四倍比可比的開源替代方案要大。本文探討了XGEN-7B在示例數據集上的關鍵功能，用法和微調。

為什麼選擇XGEN-7B？

> XGEN-7B的優勢範圍超出了其擴展上下文長度。它的主要功能包括：

出色的效率：儘管其相對較小的70億參數，XGEN-7B可以提供性能與更大的模型相比。這種效率允許在高端本地機器上部署，從而消除了對廣泛的雲計算資源的需求。這使得從個人研究人員到小型企業的廣泛用戶都可以使用。

多功能模型變體：

salesforce提供了三個XGEN-7B變體，以滿足各種需求：>

XGEN-7B-4K基礎：一個4,000 token模型，適用於需要適度上下文的任務。根據Apache 2.0許可證許可。
> XGEN-7B-8K基礎：
>用於交互式和教學應用程序（非商業用途）的微調。非常適合教育工具和聊天機器人。

優質基準性能：針對長序列進行了優化的： Xgen-7b的體系結構專門針對長期任務進行了優化。這對於諸如詳細文檔摘要和全面提問的應用至關重要，其中了解整個輸入對於準確且連貫的輸出至關重要。 salesforce XGEN-7B培訓方法

> XGEN-7B令人印象深刻的功能源於其複雜的培訓過程：>

階段1：在1.37萬億個代幣的自然語言和代碼數據上進行培訓。
>
階段2：對550億個代碼數據的代幣進行進一步培訓，以增強代碼生成功能。
>培訓槓桿Salesforce的JaxFormer圖書館，旨在在TPU-V4硬件上有效的LLM培訓。

設置並運行XGEN-7B

>在本地運行XGEN-7B需要一台功能強大的機器（32GB RAM，高端GPU）。另外，諸如Google Colab Pro之類的服務提供足夠的資源。

>安裝：
設置環境後，安裝必要的庫：

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
登入後複製
初始運行：
此代碼段使用8k-token模型演示了基本運行：>
>微調XGEN-7B

>微調XGEN-7B涉及多個步驟（省略了詳細說明，但原始文本提供了全面的指南）：
import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16) inputs = tokenizer("DataCamp is one he ...", return_tensors="pt") sample = model.generate(**inputs, max_length=128) print(tokenizer.decode(sample[0]))
登入後複製
>

>安裝（上面已經覆蓋）。

>
>導入必要的模塊（來自，
，
，，datasets）。 transformerspeft定義基本和微調模型的配置。 trl>

>加載數據集（例如，Guanaco Llama2數據集）。 >使用
。
>加載模型和令牌。
>使用
。 BitsAndBytesConfig>使用。

>使用。
>評估微型模型。
LoraConfig>保存微調模型和令牌。

結論 TrainingArguments雖然直接使用，但將XGEN-7B適應特定任務需要仔細考慮數據集和計算資源。如上所述，微調過程為您為您的特定需求定制這種強大的LLM提供了一個強大的框架。請記住要查閱提供的鏈接，以獲取有關LLM和微調技術的更詳細的解釋和資源。 >

以上是Salesforce XGEN-7B：關於使用和微調XGEN-7B的分步教程的詳細內容。更多資訊請關注PHP中文網其他相關文章！