Rumah > Peranti teknologi > AI > Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Lisa Kudrow
Lepaskan: 2025-03-05 10:37:19
asal
773 orang telah melayarinya

Model Bahasa Besar (LLMS) menjana teks menggunakan teknik yang dipanggil autoregression, yang melibatkan meramalkan perkataan yang paling mungkin dalam urutan berdasarkan kata -kata sebelumnya. Ejen berkuasa LLM seperti CHATGPT juga disesuaikan untuk mengikuti niat pengguna. Oleh itu, mereka bukan sahaja melengkapkan urutan input tetapi menangkap niat pengguna pada input dan menghasilkan respons dengan sewajarnya.

Jika anda telah mencuba chatgpt untuk seketika, saya pasti anda telah menyedari bahawa kualiti dari jawapan yang diberikan juga bergantung kepada kualiti input pengguna, mis., Agen memberikan respons "lebih baik" kepada pertanyaan tertentu daripada yang lain . Rahsia untuk mendapatkan kembali

Jawapan yang terbaik

adalah memahami bagaimana LLM menghasilkan output dan merumuskan input prompt dengan sewajarnya. Set teknik yang digunakan untuk input pengguna untuk mengeksploitasi potensi penuh model dikenali sebagai kejuruteraan segera. Dalam artikel ini, kami akan meneroka salah satu teknik kejuruteraan yang paling kuat: Rantai-of-Thought (COT) yang mendorong. Teknik ini melibatkan penstrukturan dengan cara yang memudahkan model menyelesaikan tugas-tugas kompleks yang memerlukan penalaran atau penyelesaian masalah. Telah ditunjukkan bahawa, tanpa katil, model yang sama gagal memberikan jawapan yang betul.

Keupayaan lalai model

Walaupun LLMs dikenali kerana keupayaan mereka untuk umum,

keupayaan model bergantung pada tugas

. Apabila menggunakan LLMS, adalah penting untuk mempertimbangkan bahawa setiap model telah dilatih dalam pangkalan data yang besar namun terhad, dan ia telah dioptimumkan untuk tugas -tugas tertentu. Oleh itu, sementara model boleh menjadi sangat berprestasi dalam domain tertentu, ia mungkin gagal dalam orang lain. keupayaan model juga bergantung pada masa. Seperti pada manusia, jika anda memberi saya sejumlah 5 digit, anda memerlukan sedikit masa untuk berfikir dan menjawab kembali dengan jawapan yang betul. Jika anda melakukannya dengan tergesa -gesa, anda boleh dengan mudah salah perhitungan dan gagal dalam respons anda. 

Begitu juga, jika kita memberikan model bahasa tugas yang terlalu rumit untuk dilakukan pada masa yang diperlukan untuk mengira token seterusnya, ia mungkin gagal memberikan jawapan yang betul.

Namun, sama seperti manusia, itu tidak semestinya bermakna model tidak mampu tugasnya.

dengan beberapa waktu atau bimbingan untuk membuat alasan, model mungkin masih dapat menjawab dengan pasti.

tindak balas model dan masa yang diperlukan untuk menjana ia juga boleh dipengaruhi oleh pelbagai faktor, seperti kata -kata khusus soalan:

  • Jika prompt adalah pendek dan mudah , ia mungkin tidak mengambil banyak masa untuk model menjana token seterusnya.
  • Jika prompt adalah panjang dan kompleks , model mungkin perlu memproses lebih banyak maklumat sebelum menghasilkan token seterusnya, yang boleh mengambil masa yang lebih lama.

Panduan yang mendorong Panduan LLM untuk berjaya menyelesaikan tugas-tugas yang kompleks, dengan memilih cara merumuskan prompt dan menyediakan model dengan masa atau langkah yang diperlukan untuk menghasilkan jawapan yang betul.

apakah yang mendorong rantai?

Pemeriksaan rantai adalah teknik yang meningkatkan prestasi model bahasa oleh secara eksplisit mendorong model untuk menghasilkan penjelasan langkah demi langkah atau proses pemikiran sebelum tiba di jawapan akhir . Kaedah ini membantu model untuk memecahkan masalah dan tidak melangkau sebarang tugas pertengahan untuk mengelakkan kegagalan penalaran.

COT adalah berkesan kerana ia membantu memfokuskan mekanisme perhatian LLM. Penguraian proses penalaran menjadikan model menumpukan perhatiannya pada satu bahagian masalah pada satu masa, meminimumkan risiko kesilapan yang mungkin timbul daripada mengendalikan terlalu banyak maklumat secara serentak. 

Asal Cot

Penyelidik di Google memperkenalkan rantaian-pemikiran yang mendorong dalam kertas bertajuk "Rantaian Pemikiran Menggalakkan Penalaran dalam Model Bahasa Besar" Pada tahun 2022.

mari kita lihat salah satu contoh yang dicadangkan:

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Perbandingan antara piawai piawai dan cot mendorong. Di sebelah kiri, model diarahkan untuk memberikan jawapan akhir secara langsung (standard yang mendorong). Di sebelah kanan, model itu diarahkan untuk menunjukkan proses penalaran untuk mendapatkan jawapan akhir (cot mendorong).

seperti yang dapat kita perhatikan, menghasilkan rantai pemikiran - satu siri langkah penalaran pertengahan - membantu model untuk memberikan jawapan yang betul.

Penulis asal merujuk kepada rantaian pemikiran sebagai siri langkah penalaran bahasa semulajadi pertengahan yang membawa kepada output akhir, merujuk kepada pendekatan ini sebagai rantaian yang dipikirkan.

bagaimana kerja-kerja yang mendorong rantai?

Proses bermula dengan kerajinan yang menggalakkan model untuk berfikir melalui masalah dengan cara demi langkah, dengan itu menghasilkan langkah-langkah pertengahan tanpa melompat terus ke jawapan akhir. Ini boleh dilakukan dengan menggunakan strategi yang berbeza:

#1. Arahan Eksplisit

Memberi arahan eksplisit bermaksud menguraikan masalah dalam pengguna sendiri. Sebagai contoh, menggunakan ayat -ayat seperti "Pertama, kita perlu mempertimbangkan ..." untuk mendorong model untuk memperincikan proses pemikirannya.

mari kita lihat dalam tindakan!

Bayangkan ibu Sepanyol saya telah menghantar saya resipi keluarga untuk menyediakan minuman sejuk:

input_text = """
¡Preparar café Cold Brew es un proceso sencillo y refrescante!
Todo lo que necesitas son granos de café molido grueso y agua fría.
Comienza añadiendo el café molido a un recipiente o jarra grande.
Luego, vierte agua fría, asegurándote de que todos los granos de café
estén completamente sumergidos.
Remueve la mezcla suavemente para garantizar una saturación uniforme.
Cubre el recipiente y déjalo en remojo en el refrigerador durante al
menos 12 a 24 horas, dependiendo de la fuerza deseada.
"""
Salin selepas log masuk

katakan kami berminat untuk menterjemahkan semua perkataan berkaitan kopi ke bahasa Inggeris, dan kami ingin menggunakan chatgpt untuk tugas:

prompt = f"""
Give me a numbered list of all coffee-related words in English from the text below:
Text: <{input_text}>
"""
response = chatgpt_call(prompt)
print(response)
Salin selepas log masuk

inilah tindak balas terhadap prompt ini:

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Jika kita meminta model untuk melakukan tugas ini dengan segera, kita dapat melihat bahawa ia melakukan tugas dengan salah. Bukan sahaja ia mengeluarkan kata-kata kopi yang tidak berkaitan, tetapi ia juga mengeluarkannya dalam bahasa Sepanyol, bukan dalam bahasa Inggeris.

kita boleh mempertimbangkan bahawa tugas ini adalah kompleks kerana ia memerlukan dua langkah:

    menerjemahkan teks dari bahasa Sepanyol ke Bahasa Inggeris.
  1. Mengenal pasti perkataan yang berkaitan dengan kopi.
Sebaliknya, model melompat terus ke tugas akhir mengenal pasti kata-kata yang berkaitan dengan kopi, kehilangan langkah terjemahan. Dengan menentukan terjemahan sebagai tugas pertengahan atau menguraikan tugas dalam dua langkah utama, kita dapat membimbing model ke arah output yang betul:

prompt = f"""
Give me a numbered list of all coffee-related words in English from the text below:
The task requires the following actions:
1 - Translate the given text into English.
2 - List each coffee-related word from the English text.
Text: <{input_text}>
"""
response = chatgpt_call(prompt)
print(response)
Salin selepas log masuk
Termasuk rantai-of-shought di atas membawa kepada jawapan yang betul:

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS Jika anda berminat untuk mencuba teknik ini dengan LLM lain dan bukannya CHATGPT atau API OpenAI, seperti dalam artikel ini, kursus "membangunkan model bahasa besar" adalah untuk anda!

#2. Arahan tersirat

Kadang -kadang, tidak perlu menguraikan masalah itu sendiri. Universiti Tokyo, bersama -sama dengan Penyelidikan Google, mencadangkan kaedah yang baik untuk meningkatkan respons LLM yang terdiri daripada hanya menambah "mari kita berfikir langkah demi langkah" pada akhir prompt asal.

Kalimat mudah ini mendorong model untuk membuat alasan dengan kuat dan melalui semua langkah yang diperlukan untuk menjalankan tugas.

mari kita menganalisis salah satu contoh yang dicadangkan oleh penulis dalam kertas asal "Model bahasa yang besar adalah penimbang sifar-tembakan":

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Perbandingan antara piawai piawai dan penggunaan arahan COT tersirat. Di sebelah kiri, model memberikan jawapan terakhir kepada masalah secara langsung (sifar-shot mendorong) dan gagal. Di sebelah kanan, model ini diarahkan dengan arahan COT yang tersirat (cot acit) mendapatkan respons yang betul.

[a]

Dalam contoh pertama, penulis meminta model untuk menyelesaikan masalah aritmetik, tetapi gagal dalam tugas ini.

[b] Kemudian, dengan menambahkan "mari kita berfikir langkah demi langkah" kepada soalan asal, model alasan jawapannya dengan kuat dan berjaya.

Menggunakan helah mudah ini kepada dataset Multiarith Math, penulis mendapati bahawa arahan tersirat ini empat kali ganda ketepatan dari 18% hingga 79%!

Jika anda berminat, anda boleh membaca lebih lanjut mengenai teknik ini di "Gunakan arahan pendek ini untuk meningkatkan hasil Chatgpt."

#3. Contoh demonstrasi

Kami telah menggunakan istilah "sifar-shot" di bahagian di atas beberapa kali. Zero-shot merujuk kepada keupayaan model untuk melaksanakan tugas tanpa terlatih secara eksplisit pada contoh tugas tertentu

Ia bergantung kepada keupayaan model untuk umum dan menghasilkan respons yang sesuai untuk tugas -tugas baru dan sebelumnya yang tidak kelihatan. Ini bermakna apabila kita membuka antara muka pengguna Chatgpt dan mengemukakan soalan dengan segera, kita melakukan sifar-shot yang mendorong.

Walau bagaimanapun, ada cara untuk menunjukkan model beberapa contoh tugas yang sama yang ingin kami selesaikan.

Menyediakan satu siri contoh demonstrasi dikenali sebagai satu-tembakan dan beberapa tembakan yang mendorong , bergantung kepada bilangan contoh yang disediakan.

satu-shot menggesa

One-shot menggabungkan melibatkan

menunjukkan model satu contoh yang serupa dengan tugas sasaran untuk panduan. Sebagai contoh, jika kita merujuk kembali kepada angka pertama artikel itu, kita dapat melihat bahawa model itu menghasilkan rantaian yang difikirkan terima kasih kepada contoh demonstrasi yang disediakan dalam prompt.

beberapa-shot menggesa

Pembelajaran beberapa-tembakan berfungsi sama seperti satu-shot, tetapi

bilangan contoh yang diberikan adalah lebih tinggi

, biasanya sekitar seratus. Prestasi model meningkat secara linear dengan bilangan contoh. beberapa tembakan yang dipelajari oleh Jason Wei dan Denny Zhou et al. dari Google. Pendekatan ini amat berguna untuk tugas-tugas yang memerlukan lebih banyak pengetahuan khusus atau domain khusus, di mana model mungkin tidak mempunyai pengetahuan latar belakang yang mencukupi untuk melaksanakan tugas menggunakan sifar-shot atau satu tembakan yang mendorong.

beberapa tembakan yang kadang-kadang dilihat sebagai penalaan halus model pada koleksi data baru atau khas

. Lihat lebih banyak contoh satu pukulan dan beberapa tembakan yang mendorong pada "meningkatkan prestasi chatgpt dengan kejuruteraan segera."

Cot-shot cot menggesa

satu tembakan dan beberapa tembakan yang menggesa bukan katil. Walau bagaimanapun, para penyelidik telah meneroka bagaimana pembelajaran beberapa tembakan dapat digabungkan dengan cot yang mendorong, yang dikenali sebagai "beberapa tembakan yang mendorong." Dalam beberapa katil,

model disediakan dengan beberapa contoh masalah bersama dengan penyelesaian langkah demi langkah mereka untuk membimbing proses penalarannya

.

Menggabungkan beberapa tempat tidur yang menggabungkan dengan teknik lain, seperti generasi pengambilan semula atau pertanyaan interaktif, dapat meningkatkan lagi prestasi dan kebolehpercayaan model. Mengintegrasikan pangkalan pengetahuan luaran, pangkalan data, atau sistem pengambilan maklumat membolehkan model untuk meningkatkan penalarannya dengan maklumat faktual dan terkini.

Melaksanakan rantaian-pemikiran yang mendorong dalam amalan

Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS

Maze masalah matematik untuk menggambarkan bagaimana COT dapat membantu model menavigasi ruang pengetahuan dan menyelesaikan tugas -tugas yang kompleks. Imej yang dihasilkan sendiri menggunakan Generasi Imej ChatGPT 4O dengan prompt berikut "Bayangkan agen model bahasa melalui maze masalah matematik".

Terdapat pelbagai cara untuk memasukkan katil dalam arahan kami:

  • templat berstruktur : Menggunakan templat yang secara eksplisit menggariskan langkah -langkah model yang harus diambil, seperti yang kita lihat dalam contoh kopi. Lihat lebih banyak contoh templat segera dan bersyarat yang diminta dalam artikel Garis Panduan yang menggesa.
  • Interaktif Prompt : Melibatkan model dalam dialog di mana ia diminta untuk menerangkan setiap langkah atau membimbing proses penalaran model dengan memberikan maklum balas atau pembetulan pada setiap langkah. Ini juga dikenali sebagai pendekatan manusia-dalam-gelung.
  • Gelung maklum balas : Menggabungkan mekanisme maklum balas di mana langkah -langkah perantaraan model dinilai dan ditapis jika perlu. Ini juga dikenali sebagai Multi-Stage yang mendorong.

Rangka kerja berganda dapat membantu anda melaksanakan COT dan teknik kejuruteraan yang lain, tetapi Langchain adalah kegemaran saya. Jika anda berminat menggunakan Langchain sebagai sebahagian daripada projek berkuasa LLM anda, kursus "membangunkan aplikasi LLM dengan Langchain" adalah titik permulaan yang ideal.

faedah rantaian yang mendorong

Rantai-of-shought mendorong beberapa faedah, terutamanya dalam meningkatkan prestasi dan kebolehpercayaan model bahasa dalam tugas kompleks.

#1. Ketepatan yang lebih baik

Dengan memecahkan masalah ke dalam langkah -langkah yang lebih kecil, terkawal, model dapat mengendalikan tugas -tugas kompleks dengan lebih tepat. Langkah -langkah pertengahan menyediakan pusat pemeriksaan di mana kesilapan yang berpotensi dapat ditangkap dan diperbetulkan, yang membawa kepada jawapan akhir yang lebih tepat.

Sebab mengapa tugas-tugas seperti masalah matematik, teka-teki logik, atau menjawab soalan multi-hop, mendapat manfaat daripada pendekatan ini adalah kerana mereka secara semulajadi memerlukan pelbagai langkah penalaran .

#2. Interpretabiliti yang dipertingkatkan

Proses penalaran langkah demi langkah adalah telus, membolehkan pengguna memahami bagaimana model tiba pada kesimpulannya. Ketelusan ini membina kepercayaan dalam output model.

Ia juga boleh membantu dalam debugging kerana pengguna dapat lebih mudah ditemui di mana model mungkin salah dalam penalarannya.

Batasan dan Pertimbangan

Sudah tentu, seperti mana -mana teknik, selalu ada kelemahan tertentu yang patut dipertimbangkan:

ketergantungan model

Adalah penting untuk mempertimbangkan bahawa COT adalah teknik yang bergantung kepada . Oleh itu, keberkesanan COT yang mendorong sebahagian besarnya bergantung kepada keupayaan model bahasa yang mendasari.

Generasi Prompt

Kerajinan cot cot yang berkesan juga boleh mencabar. Ia memerlukan reka bentuk yang berhati -hati untuk memastikan bahawa arahan membimbing model dengan betul melalui proses penalaran. Mengemas kini dan mengekalkan Prompt untuk pelbagai jenis tugas dan domain boleh memakan masa dan mungkin memerlukan penghalusan yang berterusan.

Prestasi

Cot menggesa mungkin tidak berkesan untuk tugas -tugas yang tidak mempunyai proses penalaran berurutan yang jelas. Lebih-lebih lagi, saya tidak boleh umum dengan baik kepada jenis masalah yang baru atau tidak dijangka tanpa latihan atau penyesuaian tambahan, jadi mengekalkan asas pengetahuan terkini dan arahan yang sesuai adalah penting.

Trade-Offs

Walaupun COT mendorong meningkatkan tafsiran dengan memberikan penjelasan langkah demi langkah,

ia juga boleh membawa kepada output yang lebih panjang dan lebih verbose , yang mungkin tidak semestinya wajar untuk semua aplikasi.

Kesimpulan

Dalam artikel ini, kita telah melihat bagaimana rantaian-pemikiran yang mendorong mewakili kemajuan yang signifikan dalam meningkatkan keupayaan pemikiran model bahasa yang besar, bersama dengan beberapa contoh praktikal pelaksanaannya. 

Sama ada menggunakan templat cepat, mendorong interaktif, atau gelung maklum balas, idea di sebalik pendekatan ini adalah untuk membimbing model melalui proses pemikiran dan mengeksploitasi keupayaannya. 

Selain itu, kami telah meneroka teknik-teknik yang kuat seperti satu-tembakan dan beberapa tembakan yang mendorong yang meningkatkan prestasi model dan boleh digabungkan dengan Cot, bersama-sama dengan manfaat dan beberapa batasan yang tidak dapat kita hadapi.

Pertimbangkan untuk mencuba teknik yang dibincangkan dalam artikel ini untuk membina lebih banyak yang boleh dipercayai, arahan yang berprestasi tinggi, dan ingatlah:

Kejuruteraan cepat boleh memberi impak besar kepada output anda! Anda boleh mengetahui lebih lanjut mengenai kejuruteraan segera melalui kursus DataCamp, memahami kejuruteraan segera dan kejuruteraan cepat chatgpt untuk pemaju. Anda juga boleh menyemak panduan berasingan untuk memberi pensijilan kejuruteraan dan mengetahui jalan pembelajaran terbaik untuk anda. 

rantaian yang menggalakkan Soalan Lazim

Ia paling bermanfaat untuk masalah di mana proses terperinci, langkah demi langkah juga secara semulajadi diperlukan untuk mencapai jawapan yang betul. Langkah-langkah, seperti mengenal pasti kedudukan semasa, menilai laluan yang mungkin, dan memilih jalan dengan halangan-halangan yang paling sedikit. Ini amat berharga dalam bidang seperti penjagaan kesihatan dan kewangan, di mana pemahaman rasional di sebalik keputusan AI adalah penting. masalah. Sebaliknya, pengertian pelbagai langkah melibatkan secara berurutan memberikan petunjuk atau petunjuk tambahan pada setiap peringkat masalah, secara progresif membimbing model ke arah penyelesaian. Model ini menghasilkan pelbagai rantai untuk soalan yang sama, setiap rantai mewakili jalan penalaran yang berbeza. Jawapan akhir ditentukan berdasarkan hasil yang paling kerap berlaku di antara laluan penalaran yang berbeza ini. Ini membantu dalam mengurangkan kesilapan yang mungkin berlaku dalam rantaian penalaran tunggal.

Atas ialah kandungan terperinci Menggalakkan Rantai-of-Whought: Penalaran langkah demi langkah dengan LLMS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan