Kertas penyelidikan ini, "tidak semua penimbang LLM dicipta sama," meneroka batasan model bahasa besar (LLM) dalam tugas-tugas penalaran yang kompleks, terutamanya yang memerlukan penyelesaian masalah pelbagai langkah. Walaupun LLMS cemerlang dalam masalah matematik yang mencabar, prestasi mereka dengan ketara merendahkan apabila berhadapan dengan soalan -soalan yang saling berkaitan di mana penyelesaian kepada satu masalah memaklumkan yang seterusnya - konsep yang disebut "penalaran komposisi."
Kajian yang dijalankan oleh penyelidik dari MILA, Google DeepMind, dan Microsoft Research, mendedahkan kelemahan yang mengejutkan dalam LLM yang lebih kecil dan lebih cekap. Model-model ini, sementara mahir dalam tugas yang lebih mudah, berjuang dengan "penalaran hop kedua" yang diperlukan untuk menyelesaikan masalah dirantai. Ini bukan kerana isu seperti kebocoran data; Sebaliknya, ia berpunca daripada ketidakupayaan untuk mengekalkan konteks dan menyambungkan bahagian masalah secara logik. Penalaan arahan, teknik peningkatan prestasi biasa, memberikan manfaat yang tidak konsisten untuk model yang lebih kecil, kadang-kadang membawa kepada overfitting.
Penemuan Utama:
Makalah ini menggunakan ujian matematik kelas sekolah (GSM) komposisi untuk menggambarkan jurang ini. Ujian ini melibatkan dua soalan yang dipautkan, di mana jawapan kepada yang pertama (Q1) menjadi pemboleh ubah (x) pada kedua (Q2). Keputusan menunjukkan bahawa kebanyakan model melakukan jauh lebih teruk pada tugas komposisi daripada yang diramalkan oleh prestasi mereka pada soalan individu. Model yang lebih besar, lebih kuat seperti GPT-4O menunjukkan kebolehan penalaran yang unggul, sementara model yang lebih kecil, kos efektif, bahkan yang khusus dalam matematik, menunjukkan penurunan prestasi yang besar.
Grafik membandingkan sumber terbuka dan sumber tertutup LLM menyoroti jurang penalaran ini. Model yang lebih kecil, kos efektif secara konsisten mempamerkan jurang penalaran negatif yang lebih besar, yang menunjukkan prestasi yang lebih buruk pada tugas komposisi berbanding dengan model yang lebih besar. Sebagai contoh, GPT-4O menunjukkan jurang yang minimum, sementara yang lain seperti Phi 3-mini-4K-ia menunjukkan kekurangan yang ketara.
Analisis lanjut mendedahkan bahawa jurang penalaran tidak semata -mata disebabkan oleh kebocoran penanda aras. Isu -isu ini berpunca daripada penanda aras, gangguan oleh konteks yang tidak relevan, dan kegagalan untuk memindahkan maklumat dengan berkesan antara subtask.
Kajian ini menyimpulkan bahawa peningkatan penalaran komposisi memerlukan pendekatan latihan inovatif. Walaupun teknik seperti penalaan arahan dan pengkhususan matematik menawarkan beberapa faedah, mereka tidak mencukupi untuk merapatkan jurang penalaran. Meneroka kaedah alternatif, seperti penalaran berasaskan kod, mungkin perlu untuk meningkatkan keupayaan LLM untuk mengendalikan tugas-tugas penalaran pelbagai langkah yang kompleks. Penyelidikan ini menekankan perlunya teknik latihan yang lebih baik untuk membolehkan LLM yang lebih kecil dan lebih kos efektif untuk melaksanakan tugas-tugas penalaran yang kompleks.
Atas ialah kandungan terperinci Penalaran kompleks di LLMS: Mengapa model yang lebih kecil berjuang?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!