Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

王林
Freigeben: 2024-08-01 18:29:41
Original
1050 Leute haben es durchsucht

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Hauptautoren dieses Artikels sind von der Tsinghua University und der Carnegie Mellon University (CMU). Zusammen sind sie Zhao Chenyang, ein Bachelor-Absolvent der Informatikabteilung der Tsinghua-Universität, und Jia Xueying, ein Masterstudent der Carnegie Mellon University.
Obwohl Large-Scale-Language-Modelle (LLM) bei vielen Aufgaben der Verarbeitung natürlicher Sprache eine gute Leistung erbringen, sind ihre Ergebnisse bei bestimmten Aufgaben nicht zufriedenstellend. Um die Leistung von Modellen bei bestimmten Aufgaben in natürlicher Sprache zu verbessern, stützen sich bestehende Methoden hauptsächlich auf qualitativ hochwertige manuell annotierte Daten. Das Sammeln dieser Art von Daten ist zeitaufwändig und mühsam, besonders schwierig bei Aufgaben, bei denen die Daten knapp sind.
Um dieses Problem zu lösen, versuchen einige Forschungsarbeiten, Trainingsdaten mithilfe eines leistungsstarken Lehrermodells zu generieren, um die Leistung des Schülermodells bei bestimmten Aufgaben zu verbessern. Allerdings steht dieser Ansatz immer noch vor vielen Herausforderungen in Bezug auf Kosten, Skalierbarkeit und Rechtskonformität. Wenn qualitativ hochwertige menschliche Überwachungssignale nicht kontinuierlich erhalten werden können, ist die Fähigkeit, das Modell kontinuierlich zu iterieren, zu einem dringend zu lösenden Problem geworden.
Ein Forschungsteam der Carnegie Mellon University und der Tsinghua University hat die SELF-GUIDE-Methode vorgeschlagen. Diese Methode generiert einen aufgabenspezifischen Datensatz durch das Sprachmodell selbst und optimiert ihn anhand dieses Datensatzes, wodurch die Fähigkeit des Modells für eine bestimmte Aufgabe erheblich verbessert wird, ohne auf eine große Menge externer, qualitativ hochwertiger Daten oder leistungsfähigere Daten angewiesen zu sein Lehrermodell. Insbesondere verwendet SELF-GUIDE mit etwa drei externen Eingabebeispielen einen mehrstufigen Generierungs- und Filtermechanismus, um das Modell mithilfe der vom Modell generierten synthetischen Daten zu optimieren, damit das Modell bei bestimmten Aufgaben eine bessere Leistung erbringt.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Papieradresse: https://arxiv.org/abs/2407.12874 Code-Repository: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

                     Abbildung 1: SELF-GUIDE nutzt das Modell autonom Daten synthetisieren Die Fähigkeit, die Fähigkeit des Modells zur Ausführung bestimmter Aufgaben zu verbessern.

Methode

Konkret hat das Forschungsteam die SELF-GUIDE-Methode in drei Hauptphasen zerlegt: Eingabedatengenerierung, Ausgabedatengenerierung und Qualitätsoptimierung.

Eingabedatengenerierung

Im Entwurfs- und Implementierungsprozess des SELF-GUIDE-Frameworks spezifizierte der Forscher zunächst je nach Aufgabentyp (generative Aufgabe oder Klassifizierungsaufgabe) unterschiedliche Eingabeaufforderungsvorlagen. Für generative Aufgaben verwendet das SELF-GUIDE-Framework eine relativ einfache Eingabeaufforderungsvorlage. Für Klassifizierungsaufgaben verfolgt das SELF-GUIDE-Framework eine andere Strategie. Für Klassifizierungsaufgaben wählt das SELF-GUIDE-Framework zunächst zufällig ein Etikett aus allen Etikettenräumen aus und verwendet es als bedingt generiertes Pseudoetikett, um die Generierung von Eingabedaten zu steuern. Nach der Auswahl eines Pseudo-Labels verwendet das SELF-GUIDE-Framework komplexere Bedingungen, um eine Vorlage zu generieren, die das Modell anleitet, Eingabeinhalte zu generieren, die dem ausgewählten Pseudo-Label entsprechen.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Abbildung 2: Der Kern von SELF-GUIDE liegt in einem effizienten mehrstufigen Generierungsmechanismus, bei dem das Sprachmodell nach und nach Eingabe-Ausgabe-Datenkombinationen generiert. Nach der Generierung und Filterung werden die selbst generierten Daten weiter zur Feinabstimmung des Sprachmodells selbst verwendet. Dieses Diagramm beschreibt den Ablauf von SELF-GUIDE für Build-Aufgaben.

Nachdem die Vorlage ausgewählt und die Beispiele mit wenigen Aufnahmen ausgefüllt wurden, wird die vollständige Eingabeaufforderung an LLM übergeben, um die Eingabedaten zu generieren. Nach jeder Eingabeaufforderungsrunde werden neu generierte Eingaben zur Eingabebibliothek hinzugefügt. Eine Teilmenge der Eingaben wird zufällig aus dieser Bibliothek entnommen und mit den Eingaben aus dem ersten Beispiel zusammengeführt, um neue Hinweise zu bilden, wodurch die Menge der vom LLM generierten Eingaben schrittweise erweitert und Duplikate reduziert werden. SELF-GUIDE führt nur eine Runde der Eingabegenerierung durch, gefolgt von einer Qualitätsoptimierungsphase, in der regelbasierte Filter angewendet werden, um Eingaben von geringer Qualität zu entfernen.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.


图 3:此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据,SELF-GUIDE 首先生成伪标签,然后生成对应的输入,最后重新生成真实标签。
输出数据生成
输出数据生成阶段采用了典型的上下文学习方法:研究者向模型提供任务指令和原始示例,使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后,再进行一轮基于规则的过滤,以选择最终的合成数据集。
质量优化
生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE  采用了两种策略来提高质量:调整生成参数以提高生成质量并基于规则过滤掉低质量样本。
调整温度:调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性,在其他阶段通过使用较低的温度确保得到概率最高的输出,从而保证整体数据质量。然而,仅依靠温度调整不足以实现所需的平衡。因此, SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。
噪声过滤(Noise Filter):研究者手动整理了一份噪声术语列表,包括常见的问候语和噪声字符(例如,生成内容中的””)。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语, SELF-GUIDE 将丢弃整个示例。
长度过滤(Length Filter):虽然示例的长度可能存在偏差,但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布,并计算出输入样例的均值 μ 和标准差 σ,研究者假定生成示例的输入和输出长度应符合同一正态分布,并要求长度在 (μ − 2σ, μ + 2σ) 范围内。
整体参数微调(One Parameter Fits All):为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据,需要在标注数据点上优化各种超参数,包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分:一部分可以利用所有数据进行验证以调整生成参数,称为验证任务;另一部分的数据仅用于测试而不可用于调整参数,称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数,并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。
实验结果
为了评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面,研究者采用了与 Super-NaturalInstructions 基准相同的评估指标,即分类任务的 Exact Match 和生成任务的 ROUGE-L。
为了体现 SELF-GUIDE 的效果,研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较:
1.Few-Shot ICL:作为主要基准,研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。
2.Self-ICL:Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改,通过自生成尽可能多的示例(而不是固定个数的示例)填充提示词,从而增加参考样本数目。
3.Few-Shot Finetuning:直接利用输入的少量示例进行微调。
SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上,分类任务的绝对提升达到了 14.5%,而生成任务的绝对提升则达到了 17.9%。这些结果表明, SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果,即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

图 4:对于每类任务(分类和生成任务),研究者将任务随机分成两半,一半用于调试 “One Parameter Fits All” 策略的参数,另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明,这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力,尤其是在数据有限的情况下,SELF-GUIDE 可以有效解决缺少训练数据的问题。同时,这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展,使其更加符合人类的意图。

Das obige ist der detaillierte Inhalt vonDie neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!