首頁 > 科技週邊 > 人工智慧 > Salesforce XGEN-7B:關於使用和微調XGEN-7B的分步教程

Salesforce XGEN-7B:關於使用和微調XGEN-7B的分步教程

William Shakespeare
發布: 2025-03-08 11:44:09
原創
127 人瀏覽過

> Salesforce的XGEN-7B:一個功能強大的,緊湊的開源LLM,具有8K上下文長度

>幾種領先的開源大型語言模型(LLMS)受到了一個重要的限制:短上下文窗口,通常限制為2048代幣。 這與諸如GPT-3.5和GPT-4(GPT-4)的專有模型形成鮮明對比,具有高達32,000個令牌的上下文長度。 這種限制嚴重影響了需要廣泛上下文理解的任務的性能,例如匯總,翻譯和代碼生成。

輸入Salesforce的XGEN-7B。該型號可以正面處理上下文長度瓶頸,提供了令人印象深刻的8,000個上下文窗口 - 四倍比可比的開源替代方案要大。本文探討了XGEN-7B在示例數據集上的關鍵功能,用法和微調。

為什麼選擇XGEN-7B?

> XGEN-7B的優勢範圍超出了其擴展上下文長度。 它的主要功能包括:

出色的效率:儘管其相對較小的70億參數,XGEN-7B可以提供性能與更大的模型相比。這種效率允許在高端本地機器上部署,從而消除了對廣泛的雲計算資源的需求。 這使得從個人研究人員到小型企業的廣泛用戶都可以使用。

>

多功能模型變體:

salesforce提供了三個XGEN-7B變體,以滿足各種需求:>
  • XGEN-7B-4K基礎:一個4,000 token模型,適用於需要適度上下文的任務。根據Apache 2.0許可證許可。
  • > XGEN-7B-8K基礎:
  • XGEN-7B- {4K,8K} -INST:
  • >用於交互式和教學應用程序(非商業用途)的微調。 非常適合教育工具和聊天機器人。
優質基準性能: 針對長序列進行了優化的 Xgen-7b的體系結構專門針對長期任務進行了優化。這對於諸如詳細文檔摘要和全面提問的應用至關重要,其中了解整個輸入對於準確且連貫的輸出至關重要。 salesforce XGEN-7B培訓方法

> XGEN-7B令人印象深刻的功能源於其複雜的培訓過程:>

  • 階段1:在1.37萬億個代幣的自然語言和代碼數據上進行培訓。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • >
  • 階段2:對550億個代碼數據的代幣進行進一步培訓,以增強代碼生成功能。 Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • >培訓槓桿Salesforce的JaxFormer圖書館,旨在在TPU-V4硬件上有效的LLM培訓。

設置並運行XGEN-7B

>在本地運行XGEN-7B需要一台功能強大的機器(32GB RAM,高端GPU)。 另外,諸如Google Colab Pro之類的服務提供足夠的資源。

>安裝:

設置環境後,安裝必要的庫:

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
登入後複製
初始運行:

此代碼段使用8k-token模型演示了基本運行:>

>微調XGEN-7B

>微調XGEN-7B涉及多個步驟(省略了詳細說明,但原始文本提供了全面的指南):
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)

inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)

print(tokenizer.decode(sample[0]))
登入後複製
>

>安裝(上面已經覆蓋)。

    >
  1. >導入必要的模塊(來自
  2. datasets)。 transformerspeft定義基本和微調模型的配置。 trl>
  3. >加載數據集(例如,Guanaco Llama2數據集)。 >使用
  4. >加載模型和令牌。
  5. >使用
  6. BitsAndBytesConfig>使用
  7. >使用
  8. >評估微型模型。
  9. LoraConfig>保存微調模型和令牌。
  10. 結論 TrainingArguments雖然直接使用,但將XGEN-7B適應特定任務需要仔細考慮數據集和計算資源。 如上所述,微調過程為您為您的特定需求定制這種強大的LLM提供了一個強大的框架。 請記住要查閱提供的鏈接,以獲取有關LLM和微調技術的更詳細的解釋和資源。 >

以上是Salesforce XGEN-7B:關於使用和微調XGEN-7B的分步教程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板