Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.-AI-php.cn

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.

Lajur AIxiv ialah lajur di mana laman web ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Pengarang utama artikel ini adalah daripada Universiti Tsinghua dan Universiti Carnegie Mellon (CMU). Bersama-sama mereka ialah Zhao Chenyang, graduan sarjana muda Jabatan Sains Komputer Universiti Tsinghua, dan Jia Xueying, pelajar sarjana Universiti Carnegie Mellon.
Walaupun model bahasa berskala besar (LLM) berprestasi baik dalam banyak tugas pemprosesan bahasa semula jadi, keputusannya dalam tugasan tertentu tidak memuaskan. Untuk meningkatkan prestasi model pada tugas bahasa semula jadi tertentu, kaedah sedia ada bergantung terutamanya pada data beranotasi manual berkualiti tinggi. Proses mengumpul data jenis ini memakan masa dan susah payah, terutamanya sukar untuk tugasan yang kekurangan data.
Untuk menyelesaikan masalah ini, beberapa kajian cuba menjana data latihan melalui Model Guru yang berkuasa untuk meningkatkan prestasi Model Pelajar pada tugasan tertentu. Walau bagaimanapun, pendekatan ini masih menghadapi banyak cabaran dari segi kos, skalabiliti dan pematuhan undang-undang. Apabila isyarat penyeliaan manusia yang berkualiti tinggi tidak dapat diperoleh secara berterusan, keupayaan untuk mengulang model secara berterusan telah menjadi masalah yang mendesak untuk diselesaikan.
Pasukan penyelidik dari Carnegie Mellon University dan Tsinghua University mencadangkan kaedah PANDUAN KENDIRI. Kaedah ini menjana set data khusus tugasan oleh model bahasa itu sendiri dan memperhalusinya pada set data ini, dengan itu meningkatkan keupayaan model dengan ketara pada tugas tertentu tanpa bergantung pada sejumlah besar data luaran berkualiti tinggi atau yang lebih berkuasa. Model Guru. Khususnya, dengan lebih kurang 3 sampel input luaran, PANDUAN KENDIRI menggunakan mekanisme penjanaan dan penapisan berbilang peringkat untuk memperhalusi model menggunakan data sintetik yang dijana oleh model untuk menjadikan model berprestasi lebih baik pada tugas tertentu.

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.

Alamat kertas: https://arxiv.org/abs/2407.12874 Repositori kod: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.

model SELF secara autonomi mensintesis data Keupayaan untuk meningkatkan keupayaan model untuk melaksanakan tugas tertentu.

Kaedah

Secara khusus, pasukan penyelidik menguraikan kaedah PANDUAN KENDIRI kepada tiga peringkat utama: penjanaan data input, penjanaan data output dan pengoptimuman kualiti.

Input penjanaan data

Dalam proses reka bentuk dan pelaksanaan rangka kerja PANDUAN KENDIRI, penyelidik terlebih dahulu menentukan templat segera yang berbeza mengikut jenis tugasan (tugas generatif atau tugas klasifikasi). Untuk tugasan generatif, rangka kerja PANDUAN DIRI menggunakan templat segera yang agak mudah. Untuk tugas klasifikasi, rangka kerja PANDUAN DIRI menggunakan strategi lain. Untuk tugasan pengelasan, rangka kerja PANDUAN DIRI terlebih dahulu memilih label secara rawak daripada semua ruang label dan menggunakannya sebagai label pseudo yang dijana secara bersyarat untuk membimbing penjanaan data input. Selepas memilih label pseudo, rangka kerja PANDUAN DIRI menggunakan keadaan yang lebih kompleks untuk menjana templat bagi membimbing model menjana kandungan input yang sepadan dengan label pseudo yang dipilih.

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.

Rajah 2: Teras PANDUAN KENDIRI terletak pada mekanisme penjanaan pelbagai peringkat yang cekap, di mana model bahasa menjana gabungan data input-output secara beransur-ansur. Selepas penjanaan dan penapisan, data yang dijana sendiri selanjutnya digunakan untuk memperhalusi model bahasa itu sendiri. Gambar rajah ini menerangkan aliran PANDUAN KENDIRI untuk tugas binaan.

Selepas templat dipilih dan contoh beberapa tangkapan diisi, gesaan lengkap dihantar kepada LLM untuk menjana data input. Selepas setiap pusingan gesaan, input yang baru dijana ditambahkan pada pustaka input. Subset input diambil secara rawak daripada perpustakaan ini dan digabungkan dengan input daripada contoh awal untuk membentuk isyarat baharu, secara beransur-ansur mengembangkan set input yang dijana oleh LLM dan mengurangkan pertindihan. PANDUAN KENDIRI melaksanakan hanya satu pusingan penjanaan input, diikuti dengan fasa pengoptimuman kualiti di mana penapis berasaskan peraturan digunakan untuk mengalih keluar input berkualiti rendah.

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.

Abbildung 3: Diese Abbildung beschreibt den Prozess der selbstgeführten Durchführung der Klassifizierungsaufgabe. Für Daten aus Klassifizierungsaufgaben generiert SELF-GUIDE zunächst Pseudo-Labels, dann entsprechende Eingaben und schließlich echte Labels neu.
Ausgabedatengenerierung
In der Ausgabedatengenerierungsphase wird eine typische Kontextlernmethode verwendet: Der Forscher stellt dem Modell Aufgabenanweisungen und Originalbeispiele zur Verfügung, sodass das Modell jede in der Eingabegenerierungsphase generierte Eingabe kennzeichnen kann. Nachdem alle Ausgaben erhalten wurden, wird eine weitere Runde regelbasierter Filterung durchgeführt, um den endgültigen synthetischen Datensatz auszuwählen.
Qualitätsoptimierung
Die Qualität der generierten Daten ist entscheidend für den Erfolg nachgelagerter Schulungen. SELF-GUIDE verfolgt zwei Strategien zur Verbesserung der Qualität: Anpassen der Generierungsparameter zur Verbesserung der Generierungsqualität und Herausfiltern von Stichproben mit geringer Qualität basierend auf Regeln.
Passen Sie die Temperatur an: Das Anpassen der Temperatur ist eine gängige Strategie, um Vielfalt und Qualität in Einklang zu bringen. Das SELF-GUIDE-Framework verwendet höhere Temperaturen während der Eingabegenerierungsphase, um Diversität zu fördern, und niedrigere Temperaturen in anderen Phasen, um die höchste Ausgabewahrscheinlichkeit zu gewährleisten und so die Gesamtdatenqualität sicherzustellen. Allerdings reicht die Temperaturanpassung allein nicht aus, um das gewünschte Gleichgewicht zu erreichen. Daher führt SELF-GUIDE auch zwei Runden regelbasierter Datenfilterung nach der Eingabegenerierung und nach der Ausgabeanmerkung durch.
Rauschfilter: Der Forscher hat manuell eine Liste mit Störbegriffen zusammengestellt, einschließlich gebräuchlicher Begrüßungs- und Störzeichen (z. B. „”“ im generierten Inhalt, falls welche in der Eingabe oder Ausgabe des daraus generierten Beispiels lauter Begriffe erscheinen).
Längenfilter: Obwohl die Länge der Beispiele verzerrt sein kann, gehen die Forscher davon aus, dass diese Beispiele immer noch repräsentativ für die Längenverteilung der spezifischen Aufgabe sind Die Länge des Beispiels folgt einer Normalverteilung und berechnet den Mittelwert μ und die Standardabweichung σ des Eingabebeispiels. Der Forscher geht davon aus, dass die Eingabe- und Ausgabelängen der generierten Beispiele derselben Normalverteilung entsprechen sollten, und benötigt die Länge in (μ − 2σ, μ + 2σ) sein.
Ein Parameter passt für alle: Damit SELF-GUIDE Trainingsdaten generieren kann, die der in den Anweisungen und Beispielen angegebenen Zielverteilung entsprechen, müssen verschiedene Hyperparameter auf dem Etikett optimiert werden Datenpunkte, einschließlich der Anzahl der generierten Ein- und Ausgänge, der Temperatur, bei der Eingabedaten generiert werden, der Temperatur, bei der Ausgabedaten generiert werden, Feinabstimmungsparametern usw. Der Forscher unterteilt die experimentelle Testaufgabe in zwei Teile: einen Teil Der andere Teil der Daten wird nur zum Testen verwendet und kann nicht zum Anpassen der Parameter verwendet werden. Dies wird als Testaufgabe bezeichnet Die Parameter, die „die schlechteste Aufgabenleistung maximieren“ bei der Verifizierungsaufgabe und beheben diese für die Bewertung der SELF-GUIDE-Leistung bei Testaufgaben. Um die Wirksamkeit von SELF-GUIDE zu bewerten, wählten die Forscher 14 Klassifizierungsaufgaben und 8 Generationen aus Aufgaben aus dem Super-NaturalInstructions V2-Benchmark Die Forscher wählten zufällig die Hälfte der Aufgaben für die Super-NaturalInstructions-Parametersuche aus. In Bezug auf das Modell wählten die Forscher Vicuna-7b-1.5 Für die Eingabegenerierung, Ausgabegenerierung und Feinabstimmung verwendeten die Forscher die gleichen wie beim Super-Natural-Instruction-Benchmark. Die Bewertungsindikatoren sind Exact Match für die Klassifizierungsaufgabe und ROUGE-L für die Generierungsaufgabe Um die Wirkung von SELF-GUIDE widerzuspiegeln, verglichen die Forscher SELF-GUIDE mit anderen Methoden zum Befolgen von Anweisungen und zum Kontextlernen:
1.Few-Shot ICL: Als Hauptmaßstab verglichen die Forscher diesen Ansatz mit Sprachmodellen mit direktem Hinweis beruht direkt auf der inhärenten Fähigkeit des Modells, Anweisungen zu befolgen.
2. Self-ICL verwendet selbst generierte Beispiele, um die Anzahl der Anweisungen zu erhöhen Referenzbeispiele, indem Sie selbst so viele Beispiele wie möglich generieren (anstelle einer festen Anzahl von Beispielen), um die Eingabeaufforderungswörter auszufüllen.
3.Few-Shot-Feinabstimmung: Verwenden Sie direkt eine kleine Anzahl von Eingangsproben zur Feinabstimmung.
SELBSTFÜHRER Die wichtigsten experimentellen Ergebnisse des Originaltextes sind wie folgt. Bei den Basisbewertungsmetriken erreichte die absolute Verbesserung für die Klassifizierungsaufgabe 14,5 %, während die absolute Verbesserung für die Generierungsaufgabe 17,9 % erreichte. Diese Ergebnisse zeigen, dass SELF-GUIDE sehr effektiv dabei ist, LLM zu einer aufgabenspezifischen Spezialisierung zu führen, selbst wenn die Daten äußerst begrenzt sind. Dies unterstreicht das Potenzial selbst generierter Daten, LLM in großem Maßstab an bestimmte Aufgaben anzupassen. Weitere experimentelle Ergebnisse und Ablationsexperimente finden Sie im Originalpapier.

Abbildung 4: Für jeden Aufgabentyp (Klassifizierungs- und Generierungsaufgaben) teilte der Forscher die Aufgabe zufällig in zwei Hälften, eine Hälfte wurde zum Debuggen der Parameter der „One Parameter Fits All“-Strategie und die andere verwendet Die Hälfte wurde verwendet, um diese debuggten Parameter zu verwenden. Parameter testen die Leistung von SELF-GUIDE. Wir verwenden dieselben Decodierungsparameter und Cue-Vorlagen, um die Leistung des Modells vor und nach SELF-GUIDE zu bewerten.

Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik. Zusammenfassung

Das SELF-GUIDE-Framework ermutigt Modelle, selbstständig Trainingsdaten zu generieren und diese Daten zu verfeinern. Experimentelle Ergebnisse zeigen, dass diese Methode ein großes Potenzial zur Verbesserung der professionellen Fähigkeiten großer Sprachmodelle für bestimmte Aufgaben hat, insbesondere wenn die Daten begrenzt sind. SELF-GUIDE kann das Problem des Mangels an Trainingsdaten effektiv lösen. Gleichzeitig bietet dies auch eine Referenz für die Erforschung von Technologien zur autonomen Modellanpassung und zum kontinuierlichen Lernen. Die Forscher hoffen, dass diese Arbeit die Entwicklung autonomer Ausrichtungs- und Verbesserungsmechanismen von KI-Systemen vorantreiben wird, um sie besser mit den menschlichen Absichten in Einklang zu bringen.

Atas ialah kandungan terperinci Kerja baharu CMU & Tsinghua: Biarkan LLM mensintesis data untuk dipelajari dengan sendirinya, dan prestasi tugasan tertentu juga bertambah baik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!