>本教程在患者doctor對話數據集上演示了Google的Google的Gemma 2模型,並將其部署以供離線使用。 我們將介紹模型準備,與LORA進行微調,模型合併,量化和與JAN應用程序的本地部署。
了解Gemma 2
Google 2 Gemma 2,Google最新的開源大語言模型(LLM),在允許許可下提供9B和27B參數版本。其改進的體系結構為各種硬件提供了更快的推斷,與擁抱面孔,JAX,Pytorch和Tensorflow無縫集成。 還包括增強的安全功能和道德AI部署工具。>
>訪問和運行Gemma 2
本節詳細詳細介紹了使用4位量化的下載和運行推斷(對於消費者硬件上的內存效率所必需)。
>安裝軟件包: install ,bitsandbytes
和transformers
。
accelerate
使用擁抱的臉象徵(從您的擁抱臉部帳戶中獲得)進行身份驗證。 >
使用4位量化和適當的設備映射加載>模型。
google/gemma-2-9b-it
創建一個提示,將其引起,生成響應並解碼。 >
>
微調gemma 2 >本節使用LORA(低級適應)在醫療保健數據集上引導您進行微調Gemma 2,以進行有效的培訓。
>
安裝必需的軟件包(,,transformers
,datasets
,accelerate
,peft
,trl
,bitsandbytes
,wandb
)。 通過擁抱的臉,體重和偏見進行身份驗證。
模型和令牌加載:帶有4位量化的Load Gemma 2(9b-it),根據您的GPU功能調整數據類型和注意力實現。 配置Lora參數。
>>數據集加載:> load and preprocess
> 訓練:設置訓練參數(根據需要調整超參數),並使用SFTTrainer
訓練模型。 監控培訓進度與重量和偏見。
>評估:>完成重量和偏見以生成評估報告。
保存模型:在本地保存微調的洛拉適配器,然後將其推到擁抱的臉上輪轂上。 >
合併適配器和基本模型>
>此步驟將微調的洛拉適配器與基本gemma 2模型合併為單個可部署模型。 這是在CPU上進行的,以管理內存約束。
>設置:創建一個新筆記本(基於CPU),安裝必要的軟件包,並用擁抱的臉進行身份驗證。
加載和合併:>加載基本模型和保存的適配器,然後使用>。 PeftModel.merge_and_unload()
合併它們
保存並推動:在本地保存合併的模型和令牌,然後將它們推到擁抱的面樞紐。
>用擁抱的臉部空間進行量化
>使用GGUF我的倉庫擁抱面部空間,輕鬆將模型轉換為GGUF格式以進行最佳本地部署。
>使用JAN本地的微調模型
>
結論
本教程提供了一個綜合指南,以進行微調和部署Gemma 2。請記住,請根據您的硬件和數據集調整超參數和設置。 考慮探索Keras 3進行潛在的更快的訓練和推理。>
以上是微調Gemma 2並在本地使用的詳細內容。更多資訊請關注PHP中文網其他相關文章!