Dalam panduan ini, saya akan membimbing anda melalui proses menambah kilang metrik tollama-tollama. Llama-Factory adalah alat yang serba boleh yang membolehkan pengguna menyempurnakan model bahasa yang besar (LLMS) dengan mudah, terima kasih kepada webui yang mesra pengguna dan set skrip komprehensif untuk latihan, menggunakan, dan menilai model. Ciri utama Llama-Factory Isllama Board, sebuah papan pemuka bersepadu yang juga memaparkan metrik penilaian, memberikan pandangan berharga dalam prestasi model. Walaupun metrik standard tersedia secara lalai, keupayaan untuk menambah metrik tersuai membolehkan kami menilai model dengan cara yang berkaitan secara langsung dengan kes penggunaan khusus kami.
Kami juga akan meliputi langkah -langkah untuk membuat, mengintegrasikan, dan memvisualisasikan metrik tersuai di papan Llama. Dengan mengikuti panduan ini, anda akan dapat memantau metrik tambahan yang disesuaikan dengan keperluan anda, sama ada anda berminat dengan ketepatan khusus domain, jenis ralat bernuansa, atau penilaian berpusatkan pengguna. Penyesuaian ini memberi anda kuasa untuk menilai prestasi model dengan lebih berkesan, memastikan ia sejajar dengan matlamat unik aplikasi anda. Mari menyelam!
Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data.
Llama-Factory, yang dibangunkan oleh Hiyouga, adalah projek sumber terbuka yang membolehkan pengguna untuk menyempurnakan model bahasa melalui antara muka webui yang mesra pengguna. Ia menawarkan suite penuh alat dan skrip untuk penalaan halus, membina chatbots, berkhidmat, dan penanda aras LLMS.
Direka dengan pemula dan pengguna bukan teknikal dalam fikiran, Llama-Factory memudahkan proses LLM sumber terbuka yang baik pada dataset tersuai, menghapuskan keperluan untuk memahami konsep AI kompleks. Pengguna hanya boleh memilih model, memuat naik dataset mereka, dan menyesuaikan beberapa tetapan untuk memulakan latihan.
Setelah selesai, aplikasi web juga membolehkan menguji model, menyediakan cara yang cepat dan efisien untuk menyempurnakan LLMS pada mesin tempatan.
Walaupun metrik standard memberikan pandangan yang berharga ke dalam prestasi umum model yang disesuaikan, metrik yang disesuaikan menawarkan cara untuk menilai keberkesanan model secara langsung dalam kes penggunaan khusus anda. Dengan menjahit metrik, anda boleh mengukur lebih baik seberapa baik model memenuhi keperluan unik yang metrik generik mungkin terlepas pandang. Metrik adat tidak ternilai kerana mereka menawarkan fleksibiliti untuk membuat dan mengesan langkah -langkah yang khusus sejajar dengan keperluan praktikal, membolehkan penambahbaikan berterusan berdasarkan kriteria yang relevan dan terukur. Pendekatan ini membolehkan tumpuan yang disasarkan pada ketepatan khusus domain, kepentingan berwajaran, dan penjajaran pengalaman pengguna.
Untuk contoh ini, kami akan menggunakan persekitaran python. Pastikan anda mempunyai Python 3.8 atau lebih tinggi dan kebergantungan yang diperlukan dipasang mengikut keperluan repositori.
Kami akan terlebih dahulu memasang semua keperluan.
Git Clone-Depth 1 https://github.com/hiyouga/llama-factory.git CD llama-factory Pip Install -e ". [Obor, Metrik]"
llamifactory-cli webui
Nota: Anda boleh mencari panduan persediaan rasmi dengan lebih terperinci di sini di GitHub.
Ketahui tentang metrik penilaian lalai yang disediakan oleh Llama-Factory, seperti skor Bleu dan Rouge, dan mengapa mereka penting untuk menilai prestasi model. Bahagian ini juga memperkenalkan nilai metrik penyesuaian.
Skor BLEU (Evaluasi Dwibahasa Understudy) adalah metrik yang digunakan untuk menilai kualiti teks yang dihasilkan oleh model terjemahan mesin dengan membandingkannya dengan teks rujukan (atau manusia). Skor BLEU terutamanya menilai bagaimana terjemahan yang dihasilkan adalah satu atau lebih terjemahan rujukan.
Skor Rouge (Rouge berorientasikan untuk penilaian gist) Skor adalah satu set metrik yang digunakan untuk menilai kualiti ringkasan teks dengan membandingkannya dengan ringkasan rujukan. Ia digunakan secara meluas untuk tugas ringkasan, dan ia mengukur tumpang tindih perkataan dan frasa antara teks yang dihasilkan dan rujukan.
Metrik ini boleh didapati secara lalai, tetapi anda juga boleh menambah metrik tersuai yang disesuaikan dengan kes penggunaan khusus anda.
Panduan ini menganggap bahawa kilang-kilang telah ditubuhkan pada mesin anda. Jika tidak, sila rujuk dokumentasi kilang Llama untuk pemasangan dan persediaan.
Dalam contoh ini, fungsi mengembalikan nilai rawak antara 0 dan 1 untuk mensimulasikan skor ketepatan. Walau bagaimanapun, anda boleh menggantikannya dengan logik penilaian anda sendiri untuk mengira dan mengembalikan nilai ketepatan (atau mana -mana metrik lain) berdasarkan keperluan khusus anda. Fleksibiliti ini membolehkan anda menentukan kriteria penilaian tersuai yang lebih baik mencerminkan kes penggunaan anda.
Untuk memulakan, mari buat fail python yang dipanggil custom_metric.py dan tentukan fungsi metrik tersuai kami di dalamnya.
Dalam contoh ini, metrik tersuai kami dipanggil x _score . Metrik ini akan mengambil Preds (nilai yang diramalkan) dan label (nilai kebenaran tanah) sebagai input dan mengembalikan skor berdasarkan logik tersuai anda.
Import secara rawak def cal_x_score (preds, label): "" " Kirakan skor metrik tersuai. Parameter: Preds - Senarai nilai yang diramalkan Label - Senarai nilai kebenaran tanah Pulangan: skor - nilai rawak atau pengiraan tersuai mengikut keperluan anda "" " # Logik pengiraan metrik tersuai di sini # Contoh: Kembalikan skor rawak antara 0 dan 1 kembali rawak.uniform (0, 1)
Anda boleh menggantikan skor rawak dengan logik pengiraan khusus anda.
Untuk memastikan Lembaga Llama mengiktiraf metrik baru kami, kami perlu mengintegrasikannya ke dalam saluran paip pengiraan metrik dalam SRC/Llamifactory/Train/SFT/Metric.py
Tambahkan metrik anda ke kamus skor:
self.score_dict = { "Rouge-1": [], "Rouge-2": [], "bleu-4": [], "X_Score": [] # Tambahkan metrik tersuai anda di sini }
Kirakan dan tambahkan metrik tersuai dalam The__Call__Method:
dari .custom_metric import cal_x_score def __call __ (diri, preds, label): # Kirakan skor metrik tersuai custom_score = cal_x_score (preds, label) # Masukkan skor ke 'extra_metric' dalam kamus skor self.score_dict ["x_score"]. append (custom_score * 100)
Langkah integrasi ini penting untuk metrik tersuai untuk muncul di papan Llama.
Metrik Predic_x_score kini berjaya, menunjukkan ketepatan 93.75% untuk model ini dan dataset pengesahan. Integrasi ini menyediakan cara yang mudah untuk anda menilai setiap model yang disesuaikan secara langsung dalam saluran paip penilaian.
Selepas menubuhkan metrik tersuai anda, anda harus melihatnya di papan llama selepas menjalankan saluran penilaian. TheExtra Metricscores akan dikemas kini untuk setiap penilaian.
Dengan langkah-langkah ini, anda telah berjaya mengintegrasikan metrik penilaian tersuai ke dalam kilang Llama! Proses ini memberi anda fleksibiliti untuk melampaui metrik lalai, menjahit penilaian model untuk memenuhi keperluan unik projek anda. Dengan mendefinisikan dan melaksanakan metrik khusus untuk kes penggunaan anda, anda mendapat gambaran yang lebih bermakna dalam prestasi model, menonjolkan kekuatan dan bidang untuk penambahbaikan dengan cara yang paling penting kepada matlamat anda.
Menambah metrik tersuai juga membolehkan gelung penambahbaikan berterusan. Semasa anda menyesuaikan dan melatih model pada data baru atau mengubah parameter, metrik peribadi ini menawarkan cara yang konsisten untuk menilai kemajuan. Sama ada tumpuan anda adalah pada ketepatan khusus domain, penjajaran pengalaman pengguna, atau kaedah pemarkahan yang bernuansa, Llama Board menyediakan cara visual dan kuantitatif untuk membandingkan dan menjejaki hasil ini dari masa ke masa.
Dengan meningkatkan penilaian model dengan metrik yang disesuaikan, Llama-Factory membolehkan anda membuat keputusan yang didorong oleh data, memperbaiki model dengan ketepatan, dan menyelaraskan hasil dengan aplikasi dunia nyata. Keupayaan penyesuaian ini memberi anda kuasa untuk membuat model yang melaksanakan dengan berkesan, mengoptimumkan ke arah matlamat yang relevan, dan memberikan nilai tambah dalam penyebaran praktikal.
A. Llama-Factory adalah alat sumber terbuka untuk menunaikan model bahasa yang besar melalui webui mesra pengguna, dengan ciri-ciri untuk latihan, penyebaran, dan menilai model.
S2. Mengapa menambah metrik penilaian tersuai?A. Metrik tersuai membolehkan anda menilai prestasi model berdasarkan kriteria yang khusus untuk kes penggunaan anda, memberikan pandangan bahawa metrik standard mungkin tidak ditangkap.
Q3. Bagaimana saya membuat metrik tersuai?A. Tentukan metrik anda dalam fail python, menyatakan logik untuk bagaimana ia harus mengira prestasi berdasarkan data anda.
Q4. Di manakah saya mengintegrasikan metrik tersuai di kilang llama?A. Tambahkan metrik anda ke fail SFT/Metric.py dan kemas kini Skor Kamus dan Paip Pengiraan untuk memasukkannya.
S5. Adakah metrik tersuai saya akan muncul di papan llama?A. Ya, sebaik sahaja anda mengintegrasikan metrik tersuai anda, papan Llama memaparkannya, membolehkan anda memvisualisasikan hasilnya bersama metrik lain.
Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.
Atas ialah kandungan terperinci Meningkatkan penilaian model dengan metrik tersuai di kilang llama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!