首頁 > 科技週邊 > 人工智慧 > Openai的偏好微調:指南帶有示例的指南

Openai的偏好微調:指南帶有示例的指南

Joseph Gordon-Levitt
發布: 2025-03-02 09:02:11
原創
427 人瀏覽過

> OpenAI的偏好微調(PFT):將LLM與用戶首選項對齊的指南

>偏好微調(PFT)是將大型語言模型(LLMS)與用戶偏好對齊的強大技術。 PFT最近由OpenAI引入,補充了監督的微調(SFT)和增強微調(RFT),作為塑造模型輸出的方法。本文提供了PFT的簡明說明,並使用OpenAI的開發人員儀表板進行了證明其應用程序。

了解OpenAi的Pft

與SFT不同,

>專注於為給定輸入生成特定輸出,PFT的目的是指導模型在避免不良響應的同時避免不良響應。 直接優先優化(DPO)是OpenAI PFT中的核心技術,是一種簡單而有效的對準方法。 與RLHF不同,DPO繞開了獎勵模型的複雜性,直接優化了損失函數。這簡化了實施並提高了計算效率。

>

> DPO數據集由每個提示符的配對響應組成:一個首选和一個未脫穎而出的響應。 對於OpenAI的PFT,此數據集必須採用JSONL格式,並具有以下結構:>

{ "input": { "messages": [ { "role": "user", "content": "Prompt text here" } ], "tools": [], "parallel_tool_calls": true }, "preferred_output": [ { "role": "assistant", "content": "Preferred response here" } ], "non_preferred_output": [ { "role": "assistant", "content": "Non-preferred response here" } ] }> pft

的數據集準備

創建一個偏好數據集涉及生成一對LLM輸出對(例如,使用不同的溫度設置),然後使用另一個LLM(理想情況下是更強大的LLM)將每對標記為“首選”和“非偏愛”。

本教程使用一種簡化的方法:下載預先存在的偏好數據集(例如,從擁抱面中),並使用python腳本來重組前50行。 該腳本將數據集轉換為OpenAI的PFT所需的JSONL格式。

記住要確保您的最終數據集以JSONL格式使用並刪除任何尾隨的空線。

>運行OpenAi的Pft

argilla/ultrafeedback-binarized-preferences一旦您的數據集準備就緒:

# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...
登入後複製

訪問OpenAi儀表板。

>導航到微調部分並啟動新的微調作業。

>

選擇“直接偏好優化”作為微調方法。

>上傳您準備好的培訓和驗證數據集(如果有)。
    >
  1. OpenAI允許自定義超參數;但是,您可以讓系統自動確定最佳設置。 培訓時間取決於數據集大小。
  2. 結論
  3. 使用DPO的OpenAI的PFT提供了一種有價值的工具,用於完善LLM行為並將其與用戶偏好保持一致。 通過仔細以指定的JSONL格式準備數據集,您可以利用OpenAI的基礎架構來實現更量身定制和理想的模型響應樣式。 原始文章的鏈接中提供了OpenAI的微調方法(包括SFT和RFT)的更多資源。

以上是Openai的偏好微調:指南帶有示例的指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板