Refleksi Llama-3.1 70b: Ujian & Ringkasan Apa yang Kita Tahu-AI-php.cn

Refleksi Llama-3.1 70b: Ujian & Ringkasan Apa yang Kita Tahu

Jennifer Aniston

Lepaskan： 2025-03-04 10:00:19

asal

143 orang telah melayarinya

Refleksi llama 3.1: LLM yang membetulkan diri yang dikeluarkan pada 6 September 2024

Refleksi Llama 3.1, versi halus dari Llama 3.1 70B Model Pengajaran, memulakan kerjaya pada 6 September, 2024. "Refleksi" yang inovatif membolehkan pengesanan dan pembetulan kesilapan diri, yang bertujuan untuk ketepatan yang lebih tinggi. Artikel ini meneroka model, fungsinya, dan bagaimana untuk mengakses dan mengujinya.

Refleksi llama 3.1: Pembangunan dan Garis Masa

Pelancaran model menghasilkan buzz yang ketara, pada mulanya membanggakan prestasi unggul kepada model sumber tertutup seperti GPT-4O dan Claude 3.5 sonnet pada ujian penanda aras. Walau bagaimanapun, ujian seterusnya oleh analisis buatan mendedahkan ketidakkonsistenan. Muat naik awal untuk memeluk muka mengandungi ralat berat. Versi yang diperbetulkan, yang dikerahkan pada OpenRouter, menemui pengenalan diri yang tidak dijangka sebagai Claude Sonnet 3.5, menimbulkan persoalan mengenai asasnya yang sebenarnya. Walaupun ujian API swasta menunjukkan prestasi yang lebih baik, pengesahan bebas kekal mustahil. Penyelarasan muka pelukan terkini, sementara boleh diakses melalui pautan ini [pautan yang ditinggalkan seperti teks asal], menunjukkan prestasi yang lebih rendah daripada versi API swasta. Isu -isu kebolehulangan berterusan, meninggalkan keupayaan sebenar model yang tidak menentu.

Memahami Refleksi Llama 3.1

Refleksi llama 3.1 memanfaatkan model Llama 3.1 70B dan menggabungkan penalaan refleksi. Proses ini melibatkan:

tag pemikiran (<thinking></thinking>): Model memperincikan proses penalarannya.
tag refleksi (<reflection></reflection>): Model mengenal pasti dan membetulkan kesilapan dalam penalarannya.
tag output (): <output></output> Model membentangkan jawapan terakhirnya.

Pendekatan berstruktur ini meningkatkan ketelusan dan ketepatan. Model ini dilatih menggunakan data sintetik dari Glaive AI, yang menonjolkan kepentingan dataset berkualiti tinggi. Walaupun berada dalam fasa penyelidikan, ia dilaporkan mengatasi model terkemuka sumber tertutup pada tanda aras seperti MMLU, Math, dan GSM8K. Penciptanya menjangkakan refleksi yang akan datang Llama 405b untuk melepasi model -model ini dengan ketara.

Menyediakan Refleksi Llama 3.1 di Google Colab

Mengakses Refleksi Llama 3.1 adalah mudah dengan alat yang betul. Ia boleh didapati di Labs Hugging, Ollama, dan Hyperbolic. Google Colab Pro, dengan GPU A100 (memerlukan unit pengiraan yang dibeli), disyorkan untuk model 70B.

Langkah 1: Akses GPU

Sambung ke GPU A100 melalui Runtime → Tukar Jenis Runtime.

Langkah 2: Pemasangan dan Model Ollama Muat turun

Gunakan terminal dalam colab (menggunakan

dan !pip install colab-xterm) untuk memasang ollama (%xterm) dan jalankannya (). Dalam terminal kedua, muat turun model refleksi (curl -fsSL <https:> | sh</https:>). ollama serve

Reflection Llama-3.1 70B: Testing & Summary of What We Know

Langkah 3: Integrasi Langchain

Pasang Langchain (!pip install langchain langchain_community langchain-openai langchain-ollama) dan tentukan template prompt (menggunakan PromptTemplate dari langchain.prompts dan ChatOllama dari langchain_ollama). Mulakan model menggunakan ChatOllama(model="reflection", temperature=0) dan memohon dengan input anda. Contoh:

reflection_model.invoke({'input': "Hi, how are you?"})

Salin selepas log masuk

refleksi llama 3.1 dalam tindakan

Model ini diuji dengan pelbagai arahan:

penalaran berangka: berjaya dikira dan dibandingkan pulangan, walaupun seksyen refleksi menunjukkan ketidakkonsistenan.
perbandingan mudah: pada mulanya salah dalam membandingkan 9.9 dan 9.11, tetapi menambah "berfikir dengan teliti" ketepatan yang lebih baik.
Kejadian mengira: dengan tepat mengira "r" s dalam "strawberi."
Resolusi kekaburan: betul menyelesaikan teka -teki doktor, menunjukkan pengiktirafan bias.
Pembetulan Maklumat Palsu: pada mulanya menerima pernyataan palsu mengenai lokasi Menara Eiffel tetapi diperbetulkan sendiri.
Penalaran Commonsense: Berjaya beralih melalui senario sebab-dan-kesan, mengakui pelbagai kemungkinan.
Generasi Kod: Kod fungsional yang dihasilkan untuk permainan ular mudah.

Refleksi llama 3.1: Aplikasi dan batasan

Refleksi Llama 3.1 Pembetulan diri menjadikannya sesuai untuk matematik, logik, penjanaan kod, debugging, dan pemeriksaan fakta. Walau bagaimanapun, pembetulan sendiri menambah kerumitan, berpotensi memberi kesan kepada kelajuan dan kos. Ketidaktepatan mungkin masih berlaku. Refleksi yang akan datang Llama 405b menjanjikan penambahbaikan yang ketara.

Kesimpulan

Refleksi Llama 3.1's Reflection-Tuning adalah pembangunan yang menjanjikan, tetapi isu-isu kebolehulangan menyerlahkan cabaran yang berterusan dalam pembangunan model AI. Walaupun pembetulan diri adalah sangat berharga, ujian dan pengesahan yang ketat tetap penting.

[bahagian Soalan Lazim yang ditinggalkan kerana ia adalah salinan langsung dari Soalan Lazim Teks asal]

Atas ialah kandungan terperinci Refleksi Llama-3.1 70b: Ujian & Ringkasan Apa yang Kita Tahu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!