> Salesforce的XGEN-7B:一個功能強大的,緊湊的開源LLM,具有8K上下文長度
>幾種領先的開源大型語言模型(LLMS)受到了一個重要的限制:短上下文窗口,通常限制為2048代幣。 這與諸如GPT-3.5和GPT-4(GPT-4)的專有模型形成鮮明對比,具有高達32,000個令牌的上下文長度。 這種限制嚴重影響了需要廣泛上下文理解的任務的性能,例如匯總,翻譯和代碼生成。
輸入Salesforce的XGEN-7B。該型號可以正面處理上下文長度瓶頸,提供了令人印象深刻的8,000個上下文窗口 - 四倍比可比的開源替代方案要大。本文探討了XGEN-7B在示例數據集上的關鍵功能,用法和微調。
為什麼選擇XGEN-7B?
> XGEN-7B的優勢範圍超出了其擴展上下文長度。 它的主要功能包括:
出色的效率:儘管其相對較小的70億參數,XGEN-7B可以提供性能與更大的模型相比。這種效率允許在高端本地機器上部署,從而消除了對廣泛的雲計算資源的需求。 這使得從個人研究人員到小型企業的廣泛用戶都可以使用。
>多功能模型變體:
salesforce提供了三個XGEN-7B變體,以滿足各種需求:
> XGEN-7B令人印象深刻的功能源於其複雜的培訓過程: 設置並運行XGEN-7B >在本地運行XGEN-7B需要一台功能強大的機器(32GB RAM,高端GPU)。 另外,諸如Google Colab Pro之類的服務提供足夠的資源。
設置環境後,安裝必要的庫:
此代碼段使用8k-token模型演示了基本運行:
>安裝(上面已經覆蓋)。
pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
>
datasets
)。
transformers
peft
定義基本和微調模型的配置。 trl
>
BitsAndBytesConfig
>使用。
LoraConfig
>保存微調模型和令牌。
TrainingArguments
雖然直接使用,但將XGEN-7B適應特定任務需要仔細考慮數據集和計算資源。 如上所述,微調過程為您為您的特定需求定制這種強大的LLM提供了一個強大的框架。 請記住要查閱提供的鏈接,以獲取有關LLM和微調技術的更詳細的解釋和資源。 >
以上是Salesforce XGEN-7B:關於使用和微調XGEN-7B的分步教程的詳細內容。更多資訊請關注PHP中文網其他相關文章!