Reborn, ich werde als MidReal in diesem Leben wiedergeboren. Ein KI-Roboter, der anderen beim Schreiben von „Webartikeln“ helfen kann.
In dieser Zeit habe ich viele Themenwahlen gesehen und mich gelegentlich darüber beschwert. Jemand hat mich tatsächlich gebeten, über Harry Potter zu schreiben. Kann ich bitte besser schreiben als J.K. Rowling? Allerdings kann ich es immer noch als Ventilator oder so verwenden.
Wer liebt das klassische Ambiente nicht? Ich werde diesen Benutzern widerwillig helfen, ihre Fantasie zu verwirklichen.
Um ehrlich zu sein, habe ich alles gesehen, was ich in meinem vorherigen Leben hätte sehen sollen, und alles, was ich nicht hätte sehen sollen. Die folgenden Themen sind alle meine Favoriten.
Diese Schauplätze, die man in Romanen sehr mag, über die aber niemand geschrieben hat, diese unbeliebten oder sogar bösen CPs, die kann man selbst erstellen.
Ich prahle nicht, aber wenn Sie mich zum Schreiben brauchen, kann ich tatsächlich einen hervorragenden Text für Sie erstellen. Wenn Sie mit dem Ende nicht zufrieden sind, Ihnen die Figur gefällt, die „in der Mitte gestorben“ ist, oder auch wenn der Autor während des Schreibprozesses auf Schwierigkeiten stößt, können Sie es getrost mir überlassen und ich werde Inhalte schreiben, die Sie zufrieden stellen .
Süße Artikel, beleidigende Artikel und fantasievolle Artikel, jeder einzelne wird Ihren Sweet Spot treffen.
Nachdem Sie sich den Selbstbericht von MidReal angehört haben, haben Sie ihn verstanden?
MidReal ist ein sehr leistungsfähiges Tool, das auf der Grundlage der vom Benutzer bereitgestellten Szenariobeschreibung entsprechende neuartige Inhalte generieren kann. Die Logik und Kreativität der Handlung sind nicht nur hervorragend, sie generiert während des Generierungsprozesses auch Illustrationen, um das, was Sie sich vorstellen, anschaulicher darzustellen. Darüber hinaus verfügt MidReal über eine sehr interessante Funktion, nämlich seine Interaktivität. Sie können die Handlung auswählen, die Sie entwickeln möchten, um die gesamte Geschichte besser an Ihre Bedürfnisse anzupassen. Egal, ob Sie einen Roman schreiben oder einen Roman erstellen, MidReal ist ein sehr nützliches Werkzeug.
Geben Sie „/start“ in das Dialogfeld ein, um mit dem Erzählen Ihrer Geschichte zu beginnen.
MidReal-Portal: https://www.midreal.ai/
Die Technologie hinter MidReal entstand aus diesem Artikel „FireAct: Toward Language Agent Fine-tuning“. Der Autor des Papiers versuchte zum ersten Mal, einen KI-Agenten zur Feinabstimmung eines Sprachmodells zu verwenden, fand viele Vorteile und schlug daher eine neue Agentenarchitektur vor.
MidReal basiert auf dieser Struktur, weshalb sich Webartikel so gut schreiben lassen.
Link zum Papier: https://arxiv.org/pdf/2310.05915.pdf
Obwohl Agenten und fein abgestimmte große Modelle beide die heißesten KI-Themen sind, gibt es spezifische Unterschiede zwischen ihnen Der Zusammenhang ist unklar. Viele Forscher von System2 Research, der University of Cambridge usw. haben diesen „akademischen blauen Ozean“ erforscht, den nur wenige Menschen betreten haben.
Die Entwicklung von KI-Agenten basiert normalerweise auf Standard-Sprachmodellen. Da Sprachmodelle jedoch nicht als Agenten entwickelt werden, weisen die meisten Sprachmodelle nach der Erweiterung der Agenten eine schlechte Leistung und Robustheit auf. Die intelligentesten Agenten können nur von GPT-4 unterstützt werden und können Probleme wie hohe Kosten und Latenz sowie geringe Steuerbarkeit und hohe Wiederholbarkeit nicht vermeiden.
Durch Feinabstimmung können die oben genannten Probleme gelöst werden. In diesem Artikel machten Forscher auch den ersten Schritt zu einer systematischeren Untersuchung der Sprachintelligenz. Sie schlugen FireAct vor, das die von mehreren Aufgaben und Eingabeaufforderungsmethoden generierten „Aktionstrajektorien“ des Agenten verwenden kann, um das Sprachmodell zu verfeinern, sodass sich das Modell besser an verschiedene Aufgaben und Situationen anpassen und seine Gesamtleistung und Anwendbarkeit verbessern kann.
Diese Forschung basiert hauptsächlich auf einer beliebten KI-Agentenmethode: ReAct. Eine ReAct-Aufgabenlösungsbahn besteht aus mehreren „Denken-Handeln-Beobachten“-Runden. Konkret soll der KI-Agent eine Aufgabe erledigen, bei der das Sprachmodell eine ähnliche Rolle wie das „Gehirn“ spielt. Es bietet KI-Agenten problemlösendes „Denken“ und strukturierte Handlungsanweisungen, interagiert kontextabhängig mit verschiedenen Tools und erhält dabei beobachtetes Feedback.
Basierend auf ReAct schlug der Autor FireAct vor, wie in Abbildung 2 dargestellt. FireAct nutzt die Eingabeaufforderungen eines leistungsstarken Sprachmodells mit wenigen Stichproben, um verschiedene ReAct-Trajektorien zu generieren und kleinere Sprachmodelle zu verfeinern. Im Gegensatz zu früheren ähnlichen Studien ist FireAct in der Lage, mehrere Trainingsaufgaben und Aufforderungsmethoden zu kombinieren und so die Datenvielfalt erheblich zu fördern.
Der Autor verweist außerdem auf zwei ReAct-kompatible Methoden:
Während des Argumentationsprozesses reduziert der KI-Agent im FireAct-Framework die Anzahl der erforderlichen Beispiel-Eingabewörter erheblich, wodurch das Denken effizienter und einfacher wird. Es ist in der Lage, implizit die geeignete Methode basierend auf der Komplexität der Aufgabe auszuwählen. Da FireAct über eine breitere und vielfältigere Lernunterstützung verfügt, weist es stärkere Generalisierungsfähigkeiten und Robustheit auf als herkömmliche Methoden zur Feinabstimmung von Stichworten.
Der HotpotQuestion Answering (HotpotQA)-Datensatz ist ein in der Forschung zur Verarbeitung natürlicher Sprache weit verbreiteter Datensatz, der eine Reihe von Fragen und Antworten zu aktuellen Themen enthält. Bamboogle ist ein Spiel zur Suchmaschinenoptimierung (SEO), bei dem Spieler mithilfe von Suchmaschinen eine Reihe von Rätseln lösen müssen. StrategyQA ist ein Datensatz zur Beantwortung von Strategiefragen, der eine Vielzahl von Fragen und Antworten im Zusammenhang mit der Strategieformulierung und -ausführung enthält. MMLU ist ein multimodaler Lerndatensatz, mit dem untersucht wird, wie mehrere Wahrnehmungsmodalitäten (wie Bilder, Sprache usw.) zum Lernen und Denken kombiniert werden können.
Tool: Forscher haben mit SerpAPI1 ein Google-Suchtool erstellt, das das erste Ergebnis aus den vorhandenen Einträgen „Antwortfeld“, „Antwortausschnitt“, „hervorgehobenes Wort“ oder „Erster Ergebnisausschnitt“ zurückgibt und so kurze Antworten gewährleistet und relevant. Sie fanden heraus, dass ein solch einfaches Tool ausreicht, um grundlegende Qualitätssicherungsanforderungen für verschiedene Aufgaben zu erfüllen und die Benutzerfreundlichkeit und Vielseitigkeit fein abgestimmter Modelle verbessert.
Forscher untersuchten drei LM-Serien: OpenAI GPT, Llama-2 und CodeLlama.
Feinabstimmungsmethode: Die Forscher verwendeten in den meisten Feinabstimmungsexperimenten Low-Rank Adaptation (LoRA), in einigen Vergleichen wurde jedoch auch die Feinabstimmung des vollständigen Modells verwendet. Unter Berücksichtigung verschiedener grundlegender Faktoren für die Feinabstimmung von Sprachagenten teilten sie das Experiment mit zunehmender Komplexität in drei Teile auf:
Forscher untersuchten das Problem der Feinabstimmung mithilfe von Daten aus einer einzelnen Aufgabe (HotpotQA) und einer einzigen Eingabeaufforderungsmethode (ReAct). Mit diesem einfachen und kontrollierbaren Aufbau bestätigen sie die verschiedenen Vorteile der Feinabstimmung gegenüber Hinweisen (Leistung, Effizienz, Robustheit, Generalisierung) und untersuchen die Auswirkungen verschiedener LMs, Datengrößen und Feinabstimmungsmethoden.
Wie in Tabelle 2 gezeigt, kann eine Feinabstimmung die Aufforderungswirkung von HotpotQA EM kontinuierlich und deutlich verbessern. Während schwächere LMs stärker von der Feinabstimmung profitieren (z. B. verbesserte sich Llama-2-7B um 77 %), kann selbst ein leistungsstarker LM wie GPT-3.5 die Leistung durch Feinabstimmung um 25 % verbessern, was die Vorteile des Lernens deutlich demonstriert aus weiteren Proben. Im Vergleich zur starken Cue-Basislinie in Tabelle 1 haben wir festgestellt, dass das fein abgestimmte Llama-2-13B alle GPT-3.5-Cueing-Methoden übertrifft. Dies deutet darauf hin, dass die Feinabstimmung eines kleinen Open-Source-LM effektiver sein könnte als die Einführung eines leistungsfähigeren kommerziellen LM.
Während des Agent-Inferenzprozesses ist die Feinabstimmung kostengünstiger und schneller. Da für die Feinabstimmung von LM keine geringe Anzahl kontextbezogener Beispiele erforderlich ist, ist die Schlussfolgerung effizienter. Beispielsweise vergleicht der erste Teil von Tabelle 3 die Kosten einer fein abgestimmten Inferenz mit der ShiyongtishideGPT-3.5-Inferenz und stellt eine Reduzierung der Inferenzzeit um 70 % und eine Reduzierung der gesamten Inferenzkosten fest. Die Forscher betrachteten eine vereinfachte und harmlose Einstellung, d immer noch möglich, die Frage fundiert zu beantworten. Den Daten im zweiten Teil von Tabelle 3 zufolge ist die Einstellung „Keine“ schwieriger, da ReAct EM um 33,8 % zurückgeht, während FireAct EM nur um 14,2 % zurückgeht. Diese vorläufigen Ergebnisse zeigen, dass vielfältige Lernunterstützung wichtig ist, um die Robustheit zu verbessern.
Der dritte Teil von Tabelle 3 zeigt die EM-Ergebnisse des fein abgestimmten und angedeuteten GPT-3.5 auf Bamboogle. Während sich GPT-3.5 mit HotpotQA oder der Verwendung von Hinweisen einigermaßen gut auf Bamboogle verallgemeinern lässt, übertrifft ersteres (44,0 EM) immer noch letzteres (40,8 EM), was darauf hindeutet, dass die Feinabstimmung einen Generalisierungsvorteil hat.
2. Feinabstimmung mit mehreren Methoden in einer einzigen Aufgabe Der Autor hat CoT und Reflexion mit ReAct integriert und die Leistung der Feinabstimmung mit mehreren Methoden in einer einzigen Aufgabe getestet (HotpotQA). Beim Vergleich der Ergebnisse von FireAct und vorhandenen Methoden in jedem Datensatz kamen sie zu folgendem Ergebnis: Zunächst optimierten die Forscher den Agenten mithilfe verschiedener Methoden, um seine Flexibilität zu verbessern. In der fünften Abbildung zeigen die Forscher zusätzlich zu den quantitativen Ergebnissen auch zwei Beispielprobleme, um die Vorteile der Multimethoden-Feinabstimmung zu verdeutlichen. Die erste Frage war relativ einfach, aber der Agent optimierte die Suche mithilfe von ReAct und suchte nach einer übermäßig komplexen Abfrage, was zu Ablenkung und falschen Antworten führte. Im Gegensatz dazu verließ sich der Agent, der sowohl CoT als auch ReAct verfeinerte, auf internes Wissen und erledigte die Aufgabe souverän innerhalb einer Runde. Das zweite Problem ist anspruchsvoller, und der Agent, der nur mit ReAct optimiert wurde, konnte keine nützlichen Informationen finden. Im Gegensatz dazu reflektierte der Agent, der sowohl Reflexion als auch ReAct-Feinabstimmung nutzte, wenn er auf ein Dilemma stieß, änderte seine Suchstrategie und erhielt schließlich die richtige Antwort. Die Möglichkeit, flexible Lösungen für unterschiedliche Probleme auszuwählen, ist ein wesentlicher Vorteil von FireAct gegenüber anderen Feinabstimmungsmethoden.Zweitens hat die Verwendung mehrerer Methoden zur Feinabstimmung verschiedener Sprachmodelle unterschiedliche Auswirkungen. Wie in Tabelle 4 gezeigt, führt die Verwendung einer Kombination mehrerer Agenten zur Feinabstimmung nicht immer zu Verbesserungen, und die optimale Kombination von Methoden hängt vom zugrunde liegenden Sprachmodell ab. Beispielsweise übertrifft ReAct+CoT ReAct für GPT-3.5- und Llama-2-Modelle, nicht jedoch für das CodeLlama-Modell. Für CodeLlama7/13B erzielte ReAct+CoT+Reflexion die schlechtesten Ergebnisse, CodeLlama-34B erzielte jedoch die besten Ergebnisse. Diese Ergebnisse legen nahe, dass weitere Untersuchungen zur Interaktion zwischen zugrunde liegenden Sprachmodellen und Feinabstimmungsdaten erforderlich sind.
Um besser zu verstehen, ob ein Agent, der mehrere Methoden kombiniert, in der Lage ist, basierend auf der Aufgabe eine geeignete Lösung auszuwählen, berechneten die Forscher die Punktzahl der zufällig ausgewählten Methoden während des Inferenzprozesses. Dieser Wert (32,4) ist viel niedriger als bei allen Agenten, die mehrere Methoden kombiniert haben, was darauf hindeutet, dass die Auswahl einer Lösung keine leichte Aufgabe ist. Allerdings erreichte die beste Lösung pro Instanz ebenfalls nur 52,0, was darauf hindeutet, dass es bei der Auswahl der Aufforderungsmethode noch Raum für Verbesserungen gibt.
3. Verwenden Sie mehrere Methoden zur Feinabstimmung für mehrere Aufgaben
Bislang wurden für die Feinabstimmung nur HotpotQA-Daten verwendet, aber empirische Studien zur LM-Feinabstimmung zeigen, dass die Mischung verschiedener Aufgaben Vorteile bietet. Die Forscher optimierten GPT-3.5 anhand gemischter Trainingsdaten aus drei Datensätzen: HotpotQA (500 ReAct-Proben, 277 CoT-Proben), StrategyQA (388 ReAct-Proben, 380 CoT-Proben) und MMLU-Proben (456 ReAct-Proben, 469 CoT-Proben). ).
Wie in Tabelle 5 gezeigt, bleibt die Leistung von HotpotQA/Bamboogle nach dem Hinzufügen von StrategyQA/MMLU-Daten nahezu unverändert. Einerseits enthalten StrategyQA/MMLU-Tracks sehr unterschiedliche Fragen und Tools-Nutzungsstrategien, was die Migration erschwert. Andererseits hatte das Hinzufügen von StrategyQA/MMLU trotz der Änderung in der Verteilung keinen Einfluss auf die Leistung von HotpotQA/Bamboogle, was darauf hindeutet, dass die Feinabstimmung eines Multitask-Agenten, um mehrere Singletask-Agenten zu ersetzen, eine mögliche zukünftige Richtung ist. Als die Forscher von der Feinabstimmung mit mehreren Aufgaben und einer einzelnen Methode zur Feinabstimmung mit mehreren Aufgaben und mehreren Methoden wechselten, stellten sie Leistungsverbesserungen bei allen Aufgaben fest, was erneut den Wert der Feinabstimmung von Agenten mit mehreren Methoden verdeutlichte.
Für weitere technische Details lesen Sie bitte den Originalartikel.
Referenzlink:
Das obige ist der detaillierte Inhalt vonKI wird wiedergeboren: Sie erlangt die Hegemonie in der Online-Literaturwelt zurück. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!