Cara menjadikan LLM anda lebih tepat dengan kain rag & halus-AI-php.cn

Bayangkan mempelajari modul di universiti untuk semester. Pada akhirnya, selepas fasa pembelajaran yang intensif, anda mengambil peperiksaan - dan anda boleh mengingati konsep yang paling penting tanpa melihatnya.

Sekarang bayangkan keadaan kedua: anda ditanya soalan mengenai topik baru. Anda tidak tahu jawapannya dengan segera, jadi anda mengambil buku atau melayari wiki untuk mencari maklumat yang tepat untuk jawapannya.

Kedua-dua analogi ini mewakili dua kaedah yang paling penting untuk meningkatkan model asas LLM atau menyesuaikannya dengan tugas dan bidang tertentu: pengambilan semula generasi tambahan (RAG) dan penalaan halus.

Tetapi contoh mana yang dimiliki oleh kaedah mana?

Itulah yang akan saya jelaskan dalam artikel ini: Selepas itu, anda akan tahu apa yang Rag dan Fine-penalaan, perbezaan yang paling penting dan kaedah mana yang sesuai untuk permohonan mana.

Mari menyelam!

Jadual kandungan s

1. Asas: Apa itu RAG? Apa itu penalaan?
2. Perbezaan antara kain dan penalaan halus
3. Cara Membina Model Rag
4. Pilihan untuk penalaan halus model
5. Bilakah RAG disyorkan? Bilakah penalaan halus disyorkan?
Pemikiran terakhir
Di mana anda boleh terus belajar?

1. Asas: Apa itu RAG? Apa itu penalaan?

Model bahasa besar (LLM) seperti chatgpt dari Openai, Gemini dari Google, Claude dari Anthropics atau Deepseek sangat kuat dan telah menubuhkan diri mereka dalam kerja sehari -hari dalam masa yang sangat singkat.

Salah satu batasan terbesar mereka ialah pengetahuan mereka terhad kepada latihan. Model yang dilatih pada tahun 2024 tidak tahu peristiwa dari tahun 2025. Jika kita meminta model 4O dari Chatgpt yang presiden AS sekarang dan memberikan arahan yang jelas bahawa Internet tidak boleh digunakan, kita melihat bahawa ia tidak dapat menjawab soalan ini dengan pasti:

Cara menjadikan LLM anda lebih tepat dengan kain rag & halus

Di samping itu, model tidak dapat mengakses maklumat khusus syarikat, seperti garis panduan dalaman atau dokumentasi teknikal semasa.

Ini betul-betul di mana kain dan penalaan halus dimainkan.

Kedua -dua kaedah memungkinkan untuk menyesuaikan LLM kepada keperluan khusus:

RAG - Model tetap sama, input diperbaiki

LLM dengan pengambilan semula generasi tambahan (RAG) kekal tidak berubah.

Walau bagaimanapun, ia mendapat akses kepada sumber pengetahuan luaran dan oleh itu boleh mendapatkan maklumat yang tidak disimpan dalam parameter modelnya. RAG memanjangkan model dalam fasa kesimpulan dengan menggunakan sumber data luaran untuk memberikan maklumat terkini atau khusus. Fasa kesimpulan adalah saat model menghasilkan jawapan.

Ini membolehkan model tetap up to date tanpa latihan semula.

Bagaimana ia berfungsi?

Soalan pengguna ditanya.
Pertanyaan ditukar menjadi perwakilan vektor.
Retriever mencari bahagian teks yang berkaitan atau rekod data dalam sumber data luaran. Dokumen atau FAQ sering disimpan dalam pangkalan data vektor.
Kandungan yang ditemui dipindahkan ke model sebagai konteks tambahan.
LLM menghasilkan jawapannya berdasarkan maklumat yang diambil dan semasa.

Titik utama adalah bahawa LLM sendiri tetap tidak berubah dan berat dalaman LLM tetap sama.

Mari kita anggap syarikat menggunakan chatbot sokongan berkuasa AI.

Chatbot membantu pekerja menjawab soalan mengenai dasar syarikat, proses IT atau topik HR. Sekiranya anda akan mengemukakan soalan mengenai syarikat anda (misalnya berapa hari bercuti yang saya tinggalkan?), Model itu secara logiknya tidak memberi anda jawapan yang bermakna. LLM klasik tanpa kain tidak tahu apa -apa tentang syarikat itu - ia tidak pernah dilatih dengan data ini.

Perubahan ini dengan RAG: Chatbot boleh mencari pangkalan data luaran dasar syarikat semasa untuk dokumen yang paling relevan (contohnya fail PDF, halaman wiki atau FAQ dalaman) dan memberikan jawapan khusus.

Rag berfungsi sama seperti ketika kita manusia mencari maklumat khusus dalam perpustakaan atau carian Google-tetapi dalam masa nyata.

Seorang pelajar yang ditanya mengenai makna CRUD dengan cepat melihat artikel dan jawapan Wikipedia mencipta, membaca, mengemas kini dan memadam - seperti model RAG mengambil dokumen yang relevan. Proses ini membolehkan kedua -dua manusia dan AI memberikan jawapan yang tepat tanpa menghafal segala -galanya.

Dan ini menjadikan RAG sebagai alat yang berkuasa untuk menjaga respons yang tepat dan terkini.

Penalaan halus-Model ini terlatih dan menyimpan pengetahuan secara kekal

Daripada mencari maklumat luaran, LLM juga boleh dikemas kini secara langsung dengan pengetahuan baru melalui penalaan halus.

Penalaan halus digunakan semasa fasa latihan untuk menyediakan model dengan pengetahuan khusus domain tambahan. Model asas sedia ada dilatih lagi dengan data baru tertentu. Akibatnya, ia "mempelajari" kandungan khusus dan menginternalisasi istilah teknikal, gaya atau kandungan tertentu, tetapi mengekalkan pemahaman umum tentang bahasa.

Ini menjadikan penalaan halus alat yang berkesan untuk menyesuaikan LLM kepada keperluan, data atau tugas tertentu.

Bagaimana kerja ini?

LLM dilatih dengan set data khusus. Set data ini mengandungi pengetahuan khusus mengenai domain atau tugas.
Berat model diselaraskan supaya model menyimpan pengetahuan baru secara langsung dalam parameternya.
Selepas latihan, model boleh menghasilkan jawapan tanpa memerlukan sumber luaran.

Sekarang kita anggap kita mahu menggunakan LLM yang memberikan kita jawapan pakar kepada soalan undang -undang.

Untuk melakukan ini, LLM ini dilatih dengan teks undang-undang supaya ia dapat memberikan jawapan yang tepat selepas penalaan halus. Sebagai contoh, ia mempelajari istilah yang kompleks seperti "tort yang disengajakan" dan boleh menamakan asas undang -undang yang sesuai dalam konteks negara yang berkaitan. Daripada hanya memberikan definisi umum, ia boleh memetik undang -undang dan preseden yang relevan.

Ini bermakna anda tidak lagi mempunyai LLM umum seperti GPT-4O yang anda ada, tetapi alat yang berguna untuk membuat keputusan undang-undang.

Sekiranya kita melihat semula analogi dengan manusia, penalaan halus adalah setanding dengan pengetahuan dalaman selepas fasa pembelajaran yang intensif.

Selepas fasa pembelajaran ini, seorang pelajar sains komputer tahu bahawa istilah CRUD bermaksud membuat, membaca, mengemas kini, memadam. Dia dapat menjelaskan konsep itu tanpa perlu melihatnya. Perbendaharaan kata umum telah diperluaskan.

Pengantaraburan ini membolehkan respons yang lebih cepat dan lebih yakin-seperti LLM yang disesuaikan dengan baik.

2. Perbezaan antara kain dan penalaan halus

Kedua -dua kaedah itu meningkatkan prestasi LLM untuk tugas -tugas tertentu.

Kedua-dua kaedah memerlukan data yang disediakan dengan baik untuk berfungsi dengan berkesan.

Dan kedua -dua kaedah membantu mengurangkan halusinasi - penjanaan maklumat palsu atau direka.

Tetapi jika kita melihat jadual di bawah, kita dapat melihat perbezaan antara kedua -dua kaedah ini:

RAG sangat fleksibel kerana model itu sentiasa boleh mengakses data terkini tanpa perlu dilatih semula. Ia memerlukan kurang usaha pengiraan terlebih dahulu, tetapi memerlukan lebih banyak sumber sambil menjawab soalan (kesimpulan). Latensi juga boleh lebih tinggi.

Penalaan halus, sebaliknya, menawarkan masa kesimpulan yang lebih cepat kerana pengetahuan disimpan secara langsung dalam berat model dan tiada carian luaran diperlukan. Kelemahan utama ialah latihan yang memakan masa dan mahal dan memerlukan sejumlah besar data latihan berkualiti tinggi.

RAG menyediakan model dengan alat untuk mencari pengetahuan apabila diperlukan tanpa mengubah model itu sendiri, sedangkan penalaan halus menyimpan pengetahuan tambahan dalam model dengan parameter dan berat yang diselaraskan.

3. Cara Membina Model Rag

Rangka kerja yang popular untuk membina saluran paip yang diperolehi semula (RAG) adalah Langchain. Rangka kerja ini memudahkan menghubungkan panggilan LLM dengan sistem pengambilan semula dan memungkinkan untuk mendapatkan maklumat dari sumber luaran dengan cara yang disasarkan.

Bagaimana RAG berfungsi secara teknikal?

1. Pertanyaan Embedding

Dalam langkah pertama, permintaan pengguna diubah menjadi vektor menggunakan model embedding. Ini dilakukan, sebagai contoh, dengan teks-embedding-ada-002 dari OpenAI atau All-Minilm-L6-V2 dari muka yang memeluk.

Ini adalah perlu kerana pangkalan data vektor tidak mencari melalui teks konvensional, tetapi sebaliknya mengira persamaan semantik antara perwakilan berangka (embeddings). Dengan menukar pertanyaan pengguna ke dalam vektor, sistem ini bukan sahaja dapat mencari istilah yang sesuai, tetapi juga mengenali konsep yang sama dalam kandungan.

2. Cari dalam pangkalan data vektor

Vektor pertanyaan yang dihasilkan kemudian dibandingkan dengan pangkalan data vektor. Matlamatnya adalah untuk mencari maklumat yang paling relevan untuk menjawab soalan.

Carian persamaan ini dijalankan menggunakan algoritma jiran terdekat (ANN) yang terdekat. Alat sumber terbuka yang terkenal untuk tugas ini adalah, sebagai contoh, Faiss dari Meta untuk carian persamaan berprestasi tinggi dalam set data besar atau ChromAdb untuk tugas pengambilan kecil dan sederhana.

3. Penyisipan ke dalam konteks LLM

Dalam langkah ketiga, dokumen atau bahagian teks yang diambil diintegrasikan ke dalam prompt supaya LLM menghasilkan responsnya berdasarkan maklumat ini.

4. Penjanaan respons

LLM kini menggabungkan maklumat yang diterima dengan perbendaharaan kata bahasa umum dan menghasilkan tindak balas khusus konteks.

Alternatif kepada Langchain adalah Perpustakaan Transformer Face Hugging, yang menyediakan kelas RAG yang dibangunkan khas:

'Ragtokenizer' memaksimumkan input dan hasil pengambilan semula. Kelas memproses teks yang dimasukkan oleh pengguna dan dokumen yang diambil.
Kelas 'ragretriever' melakukan carian semantik dan pengambilan dokumen yang relevan dari pangkalan pengetahuan yang telah ditetapkan.
Kelas 'ragsequenceforgeneration' mengambil dokumen yang disediakan, mengintegrasikannya ke dalam konteks dan memindahkan mereka ke model bahasa sebenar untuk penjanaan jawapan.

4. Pilihan untuk penalaan halus model

Walaupun LLM dengan RAG menggunakan maklumat luaran untuk pertanyaan, dengan penalaan halus kita menukar berat model supaya model secara kekal menyimpan pengetahuan baru.

Bagaimana penalaan halus berfungsi secara teknikal?

1. Penyediaan data latihan

Penalaan halus memerlukan pengumpulan data berkualiti tinggi. Koleksi ini terdiri daripada input dan tindak balas model yang dikehendaki. Untuk chatbot, sebagai contoh, ini boleh menjadi pasangan jawapan. Untuk model perubatan, ini boleh menjadi laporan klinikal atau data diagnostik. Untuk AI undang -undang, ini boleh menjadi teks dan pertimbangan undang -undang.

Mari kita lihat contoh: Jika kita melihat dokumentasi Openai, kita melihat bahawa model-model ini menggunakan format sembang standard dengan peranan (sistem, pengguna, pembantu) semasa penalaan halus. Format data pasangan soalan-jawapan ini adalah jsonl dan kelihatan seperti ini, sebagai contoh:

 {"Mesej": [{"Peranan": "Sistem", "Kandungan": "Du Bist Ein Medizinischer Assistent."}, {"Role": "User", "Content": "Adakah Sind Symptome Einer Grippe?" und gelenkschmerzen. "}]}

Salin selepas log masuk

Model lain menggunakan format data lain seperti dataset CSV, JSON atau Pytorch.

2. Pemilihan model asas

Kita boleh menggunakan LLM yang terlatih sebagai titik permulaan. Ini boleh menjadi model sumber tertutup seperti GPT-3.5 atau GPT-4 melalui API OpenAI atau model sumber terbuka seperti DeepSeek, Llama, Mistral atau Falcon atau T5 atau Flan-T5 untuk tugas NLP.

3. Latihan model

Penalaan halus memerlukan banyak kuasa pengkomputeran, kerana model dilatih dengan data baru untuk mengemas kini beratnya. Terutama model besar seperti GPT-4 atau LLAMA 65B memerlukan GPU atau TPU yang kuat.

Untuk mengurangkan usaha pengiraan, terdapat kaedah yang dioptimumkan seperti LORA (penyesuaian peringkat rendah), di mana hanya sebilangan kecil parameter tambahan yang dilatih, atau Qlora (kuantitatif LORA), di mana berat model kuantitatif (misalnya 4-bit) digunakan.

4. Penggunaan & Penggunaan Model

Sebaik sahaja model telah dilatih, kami boleh menggunakannya secara tempatan atau di platform awan seperti Hab Model Face Hab, AWS atau Azure.

5. Bilakah RAG disyorkan? Bilakah penalaan halus disyorkan?

Rag dan penalaan halus mempunyai kelebihan dan kekurangan yang berbeza dan oleh itu sesuai untuk kes penggunaan yang berbeza:

RAG sangat sesuai apabila kandungan dikemas kini secara dinamik atau kerap.

Sebagai contoh, dalam FAQ Chatbots di mana maklumat perlu diambil dari pangkalan data pengetahuan yang sentiasa berkembang. Dokumentasi teknikal yang sentiasa dikemas kini juga boleh diintegrasikan dengan cekap menggunakan RAG - tanpa model yang perlu dilatih semula.

Satu lagi perkara adalah sumber: jika kuasa pengkomputeran terhad atau anggaran yang lebih kecil tersedia, RAG lebih masuk akal kerana tiada proses latihan yang kompleks diperlukan.

Penalaan halus, sebaliknya, sesuai apabila model perlu disesuaikan dengan syarikat atau industri tertentu.

Kualiti dan gaya tindak balas dapat ditingkatkan melalui latihan yang disasarkan. Sebagai contoh, LLM kemudiannya dapat menghasilkan laporan perubatan dengan istilah yang tepat.

Peraturan asas ialah: RAG digunakan apabila pengetahuan terlalu luas atau terlalu dinamik untuk disepadukan sepenuhnya ke dalam model, sementara penalaan halus adalah pilihan yang lebih baik apabila tingkah laku khusus yang konsisten diperlukan.

Dan kemudian ada rakit - keajaiban gabungan

Bagaimana jika kita menggabungkan kedua -duanya?

Itulah yang berlaku dengan pengambilan semula penalaan halus (rakit).

Model ini pertama kali diperkaya dengan pengetahuan khusus domain melalui penalaan halus supaya ia memahami istilah dan struktur yang betul. Model ini kemudian dilanjutkan dengan RAG supaya ia dapat mengintegrasikan maklumat khusus dan terkini dari sumber data luaran. Gabungan ini memastikan kepakaran yang mendalam dan kesesuaian masa nyata.

Syarikat menggunakan kelebihan kedua -dua kaedah.

Pemikiran terakhir

Kedua-dua kaedah-RAG dan penalaan halus-dapatkan keupayaan LLM asas dengan cara yang berbeza.

Penalaan halus mengkhususkan model untuk domain tertentu, sementara RAG melengkapkannya dengan pengetahuan luaran. Kedua -dua kaedah ini tidak saling eksklusif dan boleh digabungkan dalam pendekatan hibrid. Melihat kos pengiraan, penalaan halus adalah pendahuluan yang berintensifkan sumber tetapi cekap semasa operasi, sedangkan RAG memerlukan sumber awal yang lebih sedikit tetapi menggunakan lebih banyak semasa penggunaan.

Rag adalah ideal apabila pengetahuan terlalu luas atau dinamik untuk diintegrasikan terus ke dalam model. Penalaan halus adalah pilihan yang lebih baik apabila kestabilan dan pengoptimuman yang konsisten untuk tugas tertentu diperlukan. Kedua -dua pendekatan ini berfungsi dengan tujuan yang berbeza tetapi pelengkap, menjadikannya alat berharga dalam aplikasi AI.

Pada substack saya, saya kerap menulis ringkasan mengenai artikel yang diterbitkan dalam bidang Tech, Python, Sains Data, Pembelajaran Mesin dan AI. Jika anda berminat, lihat atau langgan.

Di mana anda boleh terus belajar?

Dokumentasi Terbuka-Penalaan Halus
Memeluk blog qlora
Microsoft Learn-Augment LLMS dengan kain atau penalaan halus
YouTube Teknologi IBM - Rag vs. Fine Tuning
Blog DataCamp - Apa itu Rakit?
Blog DataCamp-Rag vs Fine-Tuning

Atas ialah kandungan terperinci Cara menjadikan LLM anda lebih tepat dengan kain rag & halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!