Meningkatkan penilaian model dengan metrik tersuai di kilang llama-AI-php.cn

Dalam panduan ini, saya akan membimbing anda melalui proses menambah kilang metrik tollama-tollama. Llama-Factory adalah alat yang serba boleh yang membolehkan pengguna menyempurnakan model bahasa yang besar (LLMS) dengan mudah, terima kasih kepada webui yang mesra pengguna dan set skrip komprehensif untuk latihan, menggunakan, dan menilai model. Ciri utama Llama-Factory Isllama Board, sebuah papan pemuka bersepadu yang juga memaparkan metrik penilaian, memberikan pandangan berharga dalam prestasi model. Walaupun metrik standard tersedia secara lalai, keupayaan untuk menambah metrik tersuai membolehkan kami menilai model dengan cara yang berkaitan secara langsung dengan kes penggunaan khusus kami.

Kami juga akan meliputi langkah -langkah untuk membuat, mengintegrasikan, dan memvisualisasikan metrik tersuai di papan Llama. Dengan mengikuti panduan ini, anda akan dapat memantau metrik tambahan yang disesuaikan dengan keperluan anda, sama ada anda berminat dengan ketepatan khusus domain, jenis ralat bernuansa, atau penilaian berpusatkan pengguna. Penyesuaian ini memberi anda kuasa untuk menilai prestasi model dengan lebih berkesan, memastikan ia sejajar dengan matlamat unik aplikasi anda. Mari menyelam!

Hasil pembelajaran

Memahami bagaimana untuk menentukan dan mengintegrasikan metrik penilaian tersuai di kilang llama.
Dapatkan kemahiran praktikal dalam mengubah metrik.py untuk memasukkan metrik tersuai.
Belajar untuk memvisualisasikan metrik tersuai di papan llama untuk mendapatkan pandangan model yang dipertingkatkan.
Memperoleh pengetahuan mengenai penilaian model jahitan untuk diselaraskan dengan keperluan projek tertentu.
Terokai cara untuk memantau prestasi model khusus domain menggunakan metrik peribadi.

Artikel ini diterbitkan sebagai sebahagian daripada Blogathon Sains Data.

Jadual Kandungan

Hasil pembelajaran
Apa itu kilang llama?
Bermula dengan kilang llama
Memahami metrik penilaian di kilang llama
Prasyarat untuk menambahkan metrik tersuai
Menentukan metrik tersuai anda
Mengubah sft/metric.py untuk mengintegrasikan metrik tersuai
Kesimpulan
Soalan yang sering ditanya

Apa itu kilang llama?

Llama-Factory, yang dibangunkan oleh Hiyouga, adalah projek sumber terbuka yang membolehkan pengguna untuk menyempurnakan model bahasa melalui antara muka webui yang mesra pengguna. Ia menawarkan suite penuh alat dan skrip untuk penalaan halus, membina chatbots, berkhidmat, dan penanda aras LLMS.

Direka dengan pemula dan pengguna bukan teknikal dalam fikiran, Llama-Factory memudahkan proses LLM sumber terbuka yang baik pada dataset tersuai, menghapuskan keperluan untuk memahami konsep AI kompleks. Pengguna hanya boleh memilih model, memuat naik dataset mereka, dan menyesuaikan beberapa tetapan untuk memulakan latihan.

Setelah selesai, aplikasi web juga membolehkan menguji model, menyediakan cara yang cepat dan efisien untuk menyempurnakan LLMS pada mesin tempatan.

Walaupun metrik standard memberikan pandangan yang berharga ke dalam prestasi umum model yang disesuaikan, metrik yang disesuaikan menawarkan cara untuk menilai keberkesanan model secara langsung dalam kes penggunaan khusus anda. Dengan menjahit metrik, anda boleh mengukur lebih baik seberapa baik model memenuhi keperluan unik yang metrik generik mungkin terlepas pandang. Metrik adat tidak ternilai kerana mereka menawarkan fleksibiliti untuk membuat dan mengesan langkah -langkah yang khusus sejajar dengan keperluan praktikal, membolehkan penambahbaikan berterusan berdasarkan kriteria yang relevan dan terukur. Pendekatan ini membolehkan tumpuan yang disasarkan pada ketepatan khusus domain, kepentingan berwajaran, dan penjajaran pengalaman pengguna.

Bermula dengan kilang llama

Untuk contoh ini, kami akan menggunakan persekitaran python. Pastikan anda mempunyai Python 3.8 atau lebih tinggi dan kebergantungan yang diperlukan dipasang mengikut keperluan repositori.

Pemasangan

Kami akan terlebih dahulu memasang semua keperluan.

 Git Clone-Depth 1 https://github.com/hiyouga/llama-factory.git
CD llama-factory
Pip Install -e ". [Obor, Metrik]"

Salin selepas log masuk

Penalaan halus dengan Llama Board GUI (Dikuasakan oleh Gradio)

 llamifactory-cli webui

Salin selepas log masuk

Nota: Anda boleh mencari panduan persediaan rasmi dengan lebih terperinci di sini di GitHub.

Memahami metrik penilaian di kilang llama

Ketahui tentang metrik penilaian lalai yang disediakan oleh Llama-Factory, seperti skor Bleu dan Rouge, dan mengapa mereka penting untuk menilai prestasi model. Bahagian ini juga memperkenalkan nilai metrik penyesuaian.

Skor bleu

Skor BLEU (Evaluasi Dwibahasa Understudy) adalah metrik yang digunakan untuk menilai kualiti teks yang dihasilkan oleh model terjemahan mesin dengan membandingkannya dengan teks rujukan (atau manusia). Skor BLEU terutamanya menilai bagaimana terjemahan yang dihasilkan adalah satu atau lebih terjemahan rujukan.

Skor Rouge

Skor Rouge (Rouge berorientasikan untuk penilaian gist) Skor adalah satu set metrik yang digunakan untuk menilai kualiti ringkasan teks dengan membandingkannya dengan ringkasan rujukan. Ia digunakan secara meluas untuk tugas ringkasan, dan ia mengukur tumpang tindih perkataan dan frasa antara teks yang dihasilkan dan rujukan.

Metrik ini boleh didapati secara lalai, tetapi anda juga boleh menambah metrik tersuai yang disesuaikan dengan kes penggunaan khusus anda.

Prasyarat untuk menambahkan metrik tersuai

Panduan ini menganggap bahawa kilang-kilang telah ditubuhkan pada mesin anda. Jika tidak, sila rujuk dokumentasi kilang Llama untuk pemasangan dan persediaan.

Dalam contoh ini, fungsi mengembalikan nilai rawak antara 0 dan 1 untuk mensimulasikan skor ketepatan. Walau bagaimanapun, anda boleh menggantikannya dengan logik penilaian anda sendiri untuk mengira dan mengembalikan nilai ketepatan (atau mana -mana metrik lain) berdasarkan keperluan khusus anda. Fleksibiliti ini membolehkan anda menentukan kriteria penilaian tersuai yang lebih baik mencerminkan kes penggunaan anda.

Menentukan metrik tersuai anda

Untuk memulakan, mari buat fail python yang dipanggil custom_metric.py dan tentukan fungsi metrik tersuai kami di dalamnya.

Dalam contoh ini, metrik tersuai kami dipanggil x _score . Metrik ini akan mengambil Preds (nilai yang diramalkan) dan label (nilai kebenaran tanah) sebagai input dan mengembalikan skor berdasarkan logik tersuai anda.

 Import secara rawak

def cal_x_score (preds, label):
    "" "
    Kirakan skor metrik tersuai.

    Parameter:
    Preds - Senarai nilai yang diramalkan
    Label - Senarai nilai kebenaran tanah

    Pulangan:
    skor - nilai rawak atau pengiraan tersuai mengikut keperluan anda
    "" "
    # Logik pengiraan metrik tersuai di sini
    
    # Contoh: Kembalikan skor rawak antara 0 dan 1
    kembali rawak.uniform (0, 1)

Salin selepas log masuk

Anda boleh menggantikan skor rawak dengan logik pengiraan khusus anda.

Mengubahsuai/metrik.pyto mengintegrasikan metrik tersuai

Untuk memastikan Lembaga Llama mengiktiraf metrik baru kami, kami perlu mengintegrasikannya ke dalam saluran paip pengiraan metrik dalam SRC/Llamifactory/Train/SFT/Metric.py

Tambahkan metrik anda ke kamus skor:

Cari fungsionalitifunctionFunction dalam sft/metric.py
Kemas kini self.score_dict untuk memasukkan metrik baru anda seperti berikut:

 self.score_dict = {
    "Rouge-1": [],
    "Rouge-2": [],
    "bleu-4": [],
    "X_Score": [] # Tambahkan metrik tersuai anda di sini
}

Salin selepas log masuk

Meningkatkan penilaian model dengan metrik tersuai di kilang llama

Kirakan dan tambahkan metrik tersuai dalam The__Call__Method:

Dalam kaedah __Call__ , hitung metrik tersuai anda dan tambahkannya ke skor_dict . Inilah contoh bagaimana untuk melakukannya:

 dari .custom_metric import cal_x_score
def __call __ (diri, preds, label):
    # Kirakan skor metrik tersuai
    custom_score = cal_x_score (preds, label)
    # Masukkan skor ke 'extra_metric' dalam kamus skor
    self.score_dict ["x_score"]. append (custom_score * 100)

Salin selepas log masuk

Langkah integrasi ini penting untuk metrik tersuai untuk muncul di papan Llama.

Meningkatkan penilaian model dengan metrik tersuai di kilang llama

Metrik Predic_x_score kini berjaya, menunjukkan ketepatan 93.75% untuk model ini dan dataset pengesahan. Integrasi ini menyediakan cara yang mudah untuk anda menilai setiap model yang disesuaikan secara langsung dalam saluran paip penilaian.

Kesimpulan

Selepas menubuhkan metrik tersuai anda, anda harus melihatnya di papan llama selepas menjalankan saluran penilaian. TheExtra Metricscores akan dikemas kini untuk setiap penilaian.

Dengan langkah-langkah ini, anda telah berjaya mengintegrasikan metrik penilaian tersuai ke dalam kilang Llama! Proses ini memberi anda fleksibiliti untuk melampaui metrik lalai, menjahit penilaian model untuk memenuhi keperluan unik projek anda. Dengan mendefinisikan dan melaksanakan metrik khusus untuk kes penggunaan anda, anda mendapat gambaran yang lebih bermakna dalam prestasi model, menonjolkan kekuatan dan bidang untuk penambahbaikan dengan cara yang paling penting kepada matlamat anda.

Menambah metrik tersuai juga membolehkan gelung penambahbaikan berterusan. Semasa anda menyesuaikan dan melatih model pada data baru atau mengubah parameter, metrik peribadi ini menawarkan cara yang konsisten untuk menilai kemajuan. Sama ada tumpuan anda adalah pada ketepatan khusus domain, penjajaran pengalaman pengguna, atau kaedah pemarkahan yang bernuansa, Llama Board menyediakan cara visual dan kuantitatif untuk membandingkan dan menjejaki hasil ini dari masa ke masa.

Dengan meningkatkan penilaian model dengan metrik yang disesuaikan, Llama-Factory membolehkan anda membuat keputusan yang didorong oleh data, memperbaiki model dengan ketepatan, dan menyelaraskan hasil dengan aplikasi dunia nyata. Keupayaan penyesuaian ini memberi anda kuasa untuk membuat model yang melaksanakan dengan berkesan, mengoptimumkan ke arah matlamat yang relevan, dan memberikan nilai tambah dalam penyebaran praktikal.

Takeaways utama

Metrik tersuai di kilang llama meningkatkan penilaian model dengan menyelaraskan mereka dengan keperluan projek yang unik.
Llama Board membolehkan visualisasi mudah metrik adat, memberikan pandangan yang lebih mendalam ke dalam prestasi model.
Mengubah metrik.py membolehkan integrasi kriteria penilaian tersuai yang lancar.
Metrik yang diperibadikan menyokong peningkatan berterusan, menyesuaikan penilaian kepada matlamat model yang berkembang.
Metrik menjahit memberi kuasa kepada keputusan yang didorong oleh data, mengoptimumkan model untuk aplikasi dunia sebenar.

Soalan yang sering ditanya

Q1. Apa itu kilang llama?

A. Llama-Factory adalah alat sumber terbuka untuk menunaikan model bahasa yang besar melalui webui mesra pengguna, dengan ciri-ciri untuk latihan, penyebaran, dan menilai model.

S2. Mengapa menambah metrik penilaian tersuai?

A. Metrik tersuai membolehkan anda menilai prestasi model berdasarkan kriteria yang khusus untuk kes penggunaan anda, memberikan pandangan bahawa metrik standard mungkin tidak ditangkap.

Q3. Bagaimana saya membuat metrik tersuai?

A. Tentukan metrik anda dalam fail python, menyatakan logik untuk bagaimana ia harus mengira prestasi berdasarkan data anda.

Q4. Di manakah saya mengintegrasikan metrik tersuai di kilang llama?

A. Tambahkan metrik anda ke fail SFT/Metric.py dan kemas kini Skor Kamus dan Paip Pengiraan untuk memasukkannya.

S5. Adakah metrik tersuai saya akan muncul di papan llama?

A. Ya, sebaik sahaja anda mengintegrasikan metrik tersuai anda, papan Llama memaparkannya, membolehkan anda memvisualisasikan hasilnya bersama metrik lain.

Media yang ditunjukkan dalam artikel ini tidak dimiliki oleh Analytics Vidhya dan digunakan atas budi bicara penulis.

Atas ialah kandungan terperinci Meningkatkan penilaian model dengan metrik tersuai di kilang llama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!