Penalaan Fine-Penalaan Terbuka (PFT): Panduan untuk menyelaraskan LLM dengan pilihan pengguna
Keutamaan Fine-Tuning (PFT) adalah teknik yang kuat untuk menyelaraskan model bahasa besar (LLMS) dengan keutamaan pengguna. Baru-baru ini diperkenalkan oleh OpenAI, PFT melengkapkan penalaan yang diselia (SFT) dan penalaan denda (RFT) sebagai kaedah untuk membentuk output model. Artikel ini memberikan penjelasan ringkas tentang PFT dan menunjukkan aplikasinya menggunakan papan pemuka pemaju OpenAI.
Memahami Openai's Pft
Tidak seperti SFT, yang memberi tumpuan kepada menghasilkan output khusus untuk input yang diberikan, PFT bertujuan untuk membimbing model ke arah respons pilihan sambil mengelakkan yang tidak diingini. Pengoptimuman Keutamaan Langsung (DPO), teknik teras dalam PFT OpenAI, adalah kaedah penjajaran yang mudah namun berkesan. Tidak seperti RLHF, DPO memintas kerumitan model ganjaran, secara langsung mengoptimumkan fungsi kerugian. Ini memudahkan pelaksanaan dan meningkatkan kecekapan pengiraan.
dataset DPO terdiri daripada respons berpasangan untuk setiap prompt: satu pilihan dan satu yang tidak disambut. Untuk PFT OpenAI, dataset ini mesti berada dalam format JSONL dengan struktur berikut:
{ "input": { "messages": [ { "role": "user", "content": "Prompt text here" } ], "tools": [], "parallel_tool_calls": true }, "preferred_output": [ { "role": "assistant", "content": "Preferred response here" } ], "non_preferred_output": [ { "role": "assistant", "content": "Non-preferred response here" } ] }
OpenAI mengesyorkan menggabungkan SFT dan PFT untuk penjajaran optimum. PFT biasanya digunakan selepas SFT awal pada dataset yang diselia.
persediaan dataset untuk pft
Membuat dataset keutamaan melibatkan menghasilkan pasangan output LLM (mis., Menggunakan tetapan suhu yang berbeza) dan kemudian menggunakan LLM yang lain (idealnya yang lebih berkuasa) untuk melabelkan setiap pasangan sebagai "pilihan" dan "bukan pilihan."
Tutorial ini menggunakan pendekatan yang mudah: memuat turun dataset keutamaan yang sedia ada (mis., Skrip ini menukar dataset ke format JSONL yang diperlukan untuk PFT OpenAI.
argilla/ultrafeedback-binarized-preferences
# ... (Python code to process and convert the Hugging Face dataset to OpenAI's JSONL format is omitted for brevity but described in the original article) ...
Running Openai's Pft
Setelah dataset anda siap:
mengakses papan pemuka terbuka.
OpenAI membolehkan penyesuaian hyperparameters; Walau bagaimanapun, anda boleh membiarkan sistem secara automatik menentukan tetapan optimum. Masa latihan bergantung pada saiz dataset.
OpenAI's PFT, menggunakan DPO, menyediakan alat yang berharga untuk memperbaiki tingkah laku LLM dan menyelaraskannya dengan keutamaan pengguna. Dengan berhati -hati menyediakan dataset dalam format JSONL yang ditentukan, anda boleh memanfaatkan infrastruktur OpenAI untuk mencapai gaya tindak balas model yang lebih disesuaikan dan diingini. Sumber lanjut mengenai kaedah penalaan yang baik, termasuk SFT dan RFT, boleh didapati dalam pautan artikel asal.
Atas ialah kandungan terperinci Keutamaan Terbuka '. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!