Rumah > Peranti teknologi > AI > Keutamaan Terbuka '

Keutamaan Terbuka '

Joseph Gordon-Levitt
Lepaskan: 2025-03-02 09:02:11
asal
427 orang telah melayarinya

Penalaan Fine-Penalaan Terbuka (PFT): Panduan untuk menyelaraskan LLM dengan pilihan pengguna

Keutamaan Fine-Tuning (PFT) adalah teknik yang kuat untuk menyelaraskan model bahasa besar (LLMS) dengan keutamaan pengguna. Baru-baru ini diperkenalkan oleh OpenAI, PFT melengkapkan penalaan yang diselia (SFT) dan penalaan denda (RFT) sebagai kaedah untuk membentuk output model. Artikel ini memberikan penjelasan ringkas tentang PFT dan menunjukkan aplikasinya menggunakan papan pemuka pemaju OpenAI.

Memahami Openai's Pft

Tidak seperti SFT, yang memberi tumpuan kepada menghasilkan output khusus untuk input yang diberikan, PFT bertujuan untuk membimbing model ke arah respons pilihan sambil mengelakkan yang tidak diingini. Pengoptimuman Keutamaan Langsung (DPO), teknik teras dalam PFT OpenAI, adalah kaedah penjajaran yang mudah namun berkesan. Tidak seperti RLHF, DPO memintas kerumitan model ganjaran, secara langsung mengoptimumkan fungsi kerugian. Ini memudahkan pelaksanaan dan meningkatkan kecekapan pengiraan.

dataset DPO terdiri daripada respons berpasangan untuk setiap prompt: satu pilihan dan satu yang tidak disambut. Untuk PFT OpenAI, dataset ini mesti berada dalam format JSONL dengan struktur berikut:

{
  "input": {
    "messages": [
      {
        "role": "user",
        "content": "Prompt text here"
      }
    ],
    "tools": [],
    "parallel_tool_calls": true
  },
  "preferred_output": [
    {
      "role": "assistant",
      "content": "Preferred response here"
    }
  ],
  "non_preferred_output": [
    {
      "role": "assistant",
      "content": "Non-preferred response here"
    }
  ]
}
Salin selepas log masuk

OpenAI mengesyorkan menggabungkan SFT dan PFT untuk penjajaran optimum. PFT biasanya digunakan selepas SFT awal pada dataset yang diselia.

persediaan dataset untuk pft

Membuat dataset keutamaan melibatkan menghasilkan pasangan output LLM (mis., Menggunakan tetapan suhu yang berbeza) dan kemudian menggunakan LLM yang lain (idealnya yang lebih berkuasa) untuk melabelkan setiap pasangan sebagai "pilihan" dan "bukan pilihan."

Tutorial ini menggunakan pendekatan yang mudah: memuat turun dataset keutamaan yang sedia ada (mis., Skrip ini menukar dataset ke format JSONL yang diperlukan untuk PFT OpenAI.

argilla/ultrafeedback-binarized-preferences

ingat untuk memastikan dataset terakhir anda berada dalam format JSONL dan keluarkan sebarang garis kosong.
# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...
Salin selepas log masuk

Running Openai's Pft

Setelah dataset anda siap:

mengakses papan pemuka terbuka.
  1. menavigasi ke bahagian penalaan halus dan memulakan pekerjaan penalaan halus baru.
  2. pilih "Pengoptimuman Keutamaan Langsung" sebagai kaedah penalaan halus.
  3. Muat naik dataset latihan dan pengesahan anda yang disediakan (jika ada).

OpenAI membolehkan penyesuaian hyperparameters; Walau bagaimanapun, anda boleh membiarkan sistem secara automatik menentukan tetapan optimum. Masa latihan bergantung pada saiz dataset. OpenAI's Preference Fine-Tuning: A Guide With Examples

Kesimpulan

OpenAI's PFT, menggunakan DPO, menyediakan alat yang berharga untuk memperbaiki tingkah laku LLM dan menyelaraskannya dengan keutamaan pengguna. Dengan berhati -hati menyediakan dataset dalam format JSONL yang ditentukan, anda boleh memanfaatkan infrastruktur OpenAI untuk mencapai gaya tindak balas model yang lebih disesuaikan dan diingini. Sumber lanjut mengenai kaedah penalaan yang baik, termasuk SFT dan RFT, boleh didapati dalam pautan artikel asal.

Atas ialah kandungan terperinci Keutamaan Terbuka '. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan