首頁 > 科技週邊 > 人工智慧 > 微調駱駝3.1用於文本分類

微調駱駝3.1用於文本分類

William Shakespeare
發布: 2025-03-05 11:08:09
原創
887 人瀏覽過

>本教程展示了精神健康情感分析的Llama 3.1-8B-IT模型。 我們將自定義模型以預測文本數據中的患者心理健康狀況,將適配器與基本模型合併,並在擁抱面樞紐中部署完整的模型。 至關重要的是,請記住,在醫療保健中使用AI時,道德考慮是至關重要的。此示例僅用於說明目的。 >我們將使用Kaggle,使用Transformers庫進行推理以及微調過程本身來介紹訪問Llama 3.1型號。 先前對LLM微調的理解(請參閱我們的“微調LLMS介紹性指南”)是有益的。

>由作者Fine-Tuning Llama 3.1 for Text Classification

圖像

理解Llama 3.1 Meta AI的多語言大語言模型(LLM)

Llama 3.1在語言理解和發電方面表現出色。 它提供8B,70B和405B參數版本,它建立在具有優化變壓器的自動回歸體系結構上。 經過多種公共數據的培訓,它支持八種語言,並擁有128K上下文長度。 它的商業許可證很容易獲得,並且在各種基準測試中都優於幾個競爭對手。

來源:Llama 3.1(Meta.com)

> Fine-Tuning Llama 3.1 for Text Classification

>在kaggle上訪問和使用Llama 3.1

我們將利用Kaggle的免費GPU/TPU。 請按照以下步驟:

>在meta.com上註冊(使用您的kaggle電子郵件)。

> >訪問Llama 3.1 Kaggle存儲庫和請求模型訪問。 > >使用提供的“代碼”按鈕啟動Kaggle筆記本。

選擇您的首選型號版本,然後將其添加到筆記本上。

安裝必要的軟件包(

)。
  1. 加載模型和令牌:
  2. 創建提示並運行推斷:
  3. %pip install -U transformers accelerate
  4. 精神健康分類
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

base_model = "/kaggle/input/llama-3.1/transformers/8b-instruct/1"

tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(base_model, return_dict=True, low_cpu_mem_usage=True, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, torch_dtype=torch.float16, device_map="auto")
登入後複製
messages = [{"role": "user", "content": "What is the tallest building in the world?"}]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=120, do_sample=True)
print(outputs[0]["generated_text"])
登入後複製
>設置:

>使用Llama 3.1啟動新的Kaggle筆記本,安裝必需的軟件包(Fine-Tuning Llama 3.1 for Text Classification

    ),並添加“心理健康的情感分析”數據集。配置權重和偏見(使用您的API鍵)。
  1. 數據處理:加載數據集,清潔它(刪除模棱兩可的類別:“自殺”,“壓力”,“人格障礙”),洗牌並分成培訓,評估和測試集(使用3000個樣本提高效率)。 創建提示併入語句和標籤。

    >
  2. 模型加載:使用4位量化的記憶效率,加載Llama-3.1-8b-Insruct模型。加載令牌器並設置墊子令牌ID。

  3. >>預先調整評估:創建功能以預測標籤和評估模型性能(準確性,分類報告,混淆矩陣)。 在微調之前評估模型的基線性能。

  4. 微調:使用適當的參數配置lora。設置培訓論點(根據您的環境根據需要進行調整)。使用SFTTrainer訓練模型。使用權重和偏見監控進度。

  5. > 在調查後評估:

    在微調後重新評估模型的性能。
  6. 合併並保存:PeftModel.from_pretrained()在新的kaggle筆記本中,使用model.merge_and_unload()

    將微調適配器與基本模型合併。測試合併模型。保存並將最終型號和令牌推到擁抱的臉部集線器上。
  7. >

/kaggle/input/...記住將佔位符(如

)替換為您的實際文件路徑。 完整的代碼和詳細說明可在原始響應中提供。 該凝結版本提供了高級概述和密鑰代碼片段。 在使用敏感數據時,始終優先考慮道德考慮。

以上是微調駱駝3.1用於文本分類的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板