Openai的偏好微調：指南帶有示例的指南-人工智慧-PHP中文網

Openai的偏好微調：指南帶有示例的指南

Joseph Gordon-Levitt

發布： 2025-03-02 09:02:11

原創

427 人瀏覽過

> OpenAI的偏好微調（PFT）：將LLM與用戶首選項對齊的指南

>偏好微調（PFT）是將大型語言模型（LLMS）與用戶偏好對齊的強大技術。 PFT最近由OpenAI引入，補充了監督的微調（SFT）和增強微調（RFT），作為塑造模型輸出的方法。本文提供了PFT的簡明說明，並使用OpenAI的開發人員儀表板進行了證明其應用程序。

了解OpenAi的Pft

與SFT不同，

>專注於為給定輸入生成特定輸出，PFT的目的是指導模型在避免不良響應的同時避免不良響應。直接優先優化（DPO）是OpenAI PFT中的核心技術，是一種簡單而有效的對準方法。與RLHF不同，DPO繞開了獎勵模型的複雜性，直接優化了損失函數。這簡化了實施並提高了計算效率。

> DPO數據集由每個提示符的配對響應組成：一個首选和一個未脫穎而出的響應。對於OpenAI的PFT，此數據集必須採用JSONL格式，並具有以下結構：>

{ "input": { "messages": [ { "role": "user", "content": "Prompt text here" } ], "tools": [], "parallel_tool_calls": true }, "preferred_output": [ { "role": "assistant", "content": "Preferred response here" } ], "non_preferred_output": [ { "role": "assistant", "content": "Non-preferred response here" } ] }> pft

的數據集準備

創建一個偏好數據集涉及生成一對LLM輸出對（例如，使用不同的溫度設置），然後使用另一個LLM（理想情況下是更強大的LLM）將每對標記為“首選”和“非偏愛”。

本教程使用一種簡化的方法：下載預先存在的偏好數據集（例如，從擁抱面中），並使用python腳本來重組前50行。該腳本將數據集轉換為OpenAI的PFT所需的JSONL格式。

記住要確保您的最終數據集以JSONL格式使用並刪除任何尾隨的空線。

>運行OpenAi的Pft

argilla/ultrafeedback-binarized-preferences一旦您的數據集準備就緒：

# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...

登入後複製

訪問OpenAi儀表板。

>導航到微調部分並啟動新的微調作業。

選擇“直接偏好優化”作為微調方法。

>上傳您準備好的培訓和驗證數據集（如果有）。

OpenAI允許自定義超參數；但是，您可以讓系統自動確定最佳設置。培訓時間取決於數據集大小。

結論

使用DPO的OpenAI的PFT提供了一種有價值的工具，用於完善LLM行為並將其與用戶偏好保持一致。通過仔細以指定的JSONL格式準備數據集，您可以利用OpenAI的基礎架構來實現更量身定制和理想的模型響應樣式。原始文章的鏈接中提供了OpenAI的微調方法（包括SFT和RFT）的更多資源。

。

以上是Openai的偏好微調：指南帶有示例的指南的詳細內容。更多資訊請關注PHP中文網其他相關文章！