Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.-KI-php.cn

Heim

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

王林

Aug 01, 2024 pm 06:29 PM

工程

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Hauptautoren dieses Artikels sind von der Tsinghua University und der Carnegie Mellon University (CMU). Zusammen sind sie Zhao Chenyang, ein Bachelor-Absolvent der Informatikabteilung der Tsinghua-Universität, und Jia Xueying, ein Masterstudent der Carnegie Mellon University.
Obwohl Large-Scale-Language-Modelle (LLM) bei vielen Aufgaben der Verarbeitung natürlicher Sprache eine gute Leistung erbringen, sind ihre Ergebnisse bei bestimmten Aufgaben nicht zufriedenstellend. Um die Leistung von Modellen bei bestimmten Aufgaben in natürlicher Sprache zu verbessern, stützen sich bestehende Methoden hauptsächlich auf qualitativ hochwertige manuell annotierte Daten. Das Sammeln dieser Art von Daten ist zeitaufwändig und mühsam, besonders schwierig bei Aufgaben, bei denen die Daten knapp sind.
Um dieses Problem zu lösen, versuchen einige Forschungsarbeiten, Trainingsdaten mithilfe eines leistungsstarken Lehrermodells zu generieren, um die Leistung des Schülermodells bei bestimmten Aufgaben zu verbessern. Allerdings steht dieser Ansatz immer noch vor vielen Herausforderungen in Bezug auf Kosten, Skalierbarkeit und Rechtskonformität. Wenn qualitativ hochwertige menschliche Überwachungssignale nicht kontinuierlich erhalten werden können, ist die Fähigkeit, das Modell kontinuierlich zu iterieren, zu einem dringend zu lösenden Problem geworden.
Ein Forschungsteam der Carnegie Mellon University und der Tsinghua University hat die SELF-GUIDE-Methode vorgeschlagen. Diese Methode generiert einen aufgabenspezifischen Datensatz durch das Sprachmodell selbst und optimiert ihn anhand dieses Datensatzes, wodurch die Fähigkeit des Modells für eine bestimmte Aufgabe erheblich verbessert wird, ohne auf eine große Menge externer, qualitativ hochwertiger Daten oder leistungsfähigere Daten angewiesen zu sein Lehrermodell. Insbesondere verwendet SELF-GUIDE mit etwa drei externen Eingabebeispielen einen mehrstufigen Generierungs- und Filtermechanismus, um das Modell mithilfe der vom Modell generierten synthetischen Daten zu optimieren, damit das Modell bei bestimmten Aufgaben eine bessere Leistung erbringt.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Papieradresse: https://arxiv.org/abs/2407.12874 Code-Repository: https://github.com/zhaochenyang20/Prompt2Model-SELF-GUIDE

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Abbildung 1: SELF-GUIDE nutzt das Modell autonom Daten synthetisieren Die Fähigkeit, die Fähigkeit des Modells zur Ausführung bestimmter Aufgaben zu verbessern.

Methode

Konkret hat das Forschungsteam die SELF-GUIDE-Methode in drei Hauptphasen zerlegt: Eingabedatengenerierung, Ausgabedatengenerierung und Qualitätsoptimierung.

Eingabedatengenerierung

Im Entwurfs- und Implementierungsprozess des SELF-GUIDE-Frameworks spezifizierte der Forscher zunächst je nach Aufgabentyp (generative Aufgabe oder Klassifizierungsaufgabe) unterschiedliche Eingabeaufforderungsvorlagen. Für generative Aufgaben verwendet das SELF-GUIDE-Framework eine relativ einfache Eingabeaufforderungsvorlage. Für Klassifizierungsaufgaben verfolgt das SELF-GUIDE-Framework eine andere Strategie. Für Klassifizierungsaufgaben wählt das SELF-GUIDE-Framework zunächst zufällig ein Etikett aus allen Etikettenräumen aus und verwendet es als bedingt generiertes Pseudoetikett, um die Generierung von Eingabedaten zu steuern. Nach der Auswahl eines Pseudo-Labels verwendet das SELF-GUIDE-Framework komplexere Bedingungen, um eine Vorlage zu generieren, die das Modell anleitet, Eingabeinhalte zu generieren, die dem ausgewählten Pseudo-Label entsprechen.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

Abbildung 2: Der Kern von SELF-GUIDE liegt in einem effizienten mehrstufigen Generierungsmechanismus, bei dem das Sprachmodell nach und nach Eingabe-Ausgabe-Datenkombinationen generiert. Nach der Generierung und Filterung werden die selbst generierten Daten weiter zur Feinabstimmung des Sprachmodells selbst verwendet. Dieses Diagramm beschreibt den Ablauf von SELF-GUIDE für Build-Aufgaben.

Nachdem die Vorlage ausgewählt und die Beispiele mit wenigen Aufnahmen ausgefüllt wurden, wird die vollständige Eingabeaufforderung an LLM übergeben, um die Eingabedaten zu generieren. Nach jeder Eingabeaufforderungsrunde werden neu generierte Eingaben zur Eingabebibliothek hinzugefügt. Eine Teilmenge der Eingaben wird zufällig aus dieser Bibliothek entnommen und mit den Eingaben aus dem ersten Beispiel zusammengeführt, um neue Hinweise zu bilden, wodurch die Menge der vom LLM generierten Eingaben schrittweise erweitert und Duplikate reduziert werden. SELF-GUIDE führt nur eine Runde der Eingabegenerierung durch, gefolgt von einer Qualitätsoptimierungsphase, in der regelbasierte Filter angewendet werden, um Eingaben von geringer Qualität zu entfernen.

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

图 3：此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据，SELF-GUIDE 首先生成伪标签，然后生成对应的输入，最后重新生成真实标签。
输出数据生成
输出数据生成阶段采用了典型的上下文学习方法：研究者向模型提供任务指令和原始示例，使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后，再进行一轮基于规则的过滤，以选择最终的合成数据集。
质量优化
生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE 采用了两种策略来提高质量：调整生成参数以提高生成质量并基于规则过滤掉低质量样本。
调整温度：调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性，在其他阶段通过使用较低的温度确保得到概率最高的输出，从而保证整体数据质量。然而，仅依靠温度调整不足以实现所需的平衡。因此， SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。
噪声过滤（Noise Filter）：研究者手动整理了一份噪声术语列表，包括常见的问候语和噪声字符（例如，生成内容中的””）。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语， SELF-GUIDE 将丢弃整个示例。
长度过滤（Length Filter）：虽然示例的长度可能存在偏差，但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布，并计算出输入样例的均值 μ 和标准差 σ，研究者假定生成示例的输入和输出长度应符合同一正态分布，并要求长度在 (μ − 2σ, μ + 2σ) 范围内。
整体参数微调（One Parameter Fits All）：为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据，需要在标注数据点上优化各种超参数，包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分：一部分可以利用所有数据进行验证以调整生成参数，称为验证任务；另一部分的数据仅用于测试而不可用于调整参数，称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数，并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。
实验结果
为了评估 SELF-GUIDE 的有效性，研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索，剩余的一半用于评估。在模型方面，研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面，研究者采用了与 Super-NaturalInstructions 基准相同的评估指标，即分类任务的 Exact Match 和生成任务的 ROUGE-L。
为了体现 SELF-GUIDE 的效果，研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较：
1.Few-Shot ICL：作为主要基准，研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。
2.Self-ICL：Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改，通过自生成尽可能多的示例（而不是固定个数的示例）填充提示词，从而增加参考样本数目。
3.Few-Shot Finetuning：直接利用输入的少量示例进行微调。
SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上，分类任务的绝对提升达到了 14.5%，而生成任务的绝对提升则达到了 17.9%。这些结果表明， SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果，即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

Die neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.

图 4：对于每类任务（分类和生成任务），研究者将任务随机分成两半，一半用于调试 “One Parameter Fits All” 策略的参数，另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明，这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力，尤其是在数据有限的情况下，SELF-GUIDE 可以有效解决缺少训练数据的问题。同时，这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展，使其更加符合人类的意图。

Das obige ist der detaillierte Inhalt vonDie neue Arbeit von CMU und Tsinghua: Lassen Sie LLM Daten synthetisieren, um selbst zu lernen, und die Leistung bestimmter Aufgaben wird ebenfalls erheblich verbessert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1666

CakePHP-Tutorial

1425

Laravel-Tutorial

1327

PHP-Tutorial

1273

C#-Tutorial

1253

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

See all articles