Obwohl KI-Modelle derzeit in sehr vielen Anwendungsbereichen eingesetzt werden, sind die meisten KI-Modelle für bestimmte Aufgaben konzipiert und erfordern oft viel Personal, um die richtige Modellarchitektur, Optimierungsalgorithmen und Hyperparameter fertigzustellen. Nachdem ChatGPT und GPT-4 populär wurden, erkannten die Menschen das enorme Potenzial großer Sprachmodelle (LLM) für das Verständnis, die Generierung, die Interaktion, das Denken usw. von Texten. Einige Forscher versuchen, LLM zu nutzen, um neue Wege zur künstlichen allgemeinen Intelligenz (AGI) zu erkunden.
Kürzlich haben Forscher der University of Texas in Austin eine neue Idee vorgeschlagen – aufgabenorientierte Eingabeaufforderungen zu entwickeln, LLM zur Automatisierung der Trainingspipeline zu verwenden und ein neues System AutoML-GPT auf der Grundlage dieser Idee zu starten.
Papieradresse:
https://www.php.cn/link/39d4b545fb02556829aab1db805021c3
AutoML-GPT nutzt GPT als Brücke zwischen verschiedenen KI-Modellen und das Modell dynamisch mit optimierten Hyperparametern trainieren. AutoML-GPT empfängt dynamisch Benutzeranfragen von Model Card [Mitchell et al., 2019] und Data Card [Gebru et al., 2021] und erstellt entsprechende Eingabeaufforderungsabsätze. Schließlich verwendet AutoML-GPT diesen Eingabeaufforderungsabsatz, um automatisch mehrere Experimente durchzuführen, einschließlich der Datenverarbeitung, des Aufbaus einer Modellarchitektur, der Optimierung von Hyperparametern und der Vorhersage von Trainingsprotokollen.
AutoML-GPT löst komplexe KI-Aufgaben über eine Vielzahl von Tests und Datensätzen hinweg, indem es seine leistungsstarken NLP-Funktionen und vorhandenen KI-Modelle maximiert. Zahlreiche Experimente und Ablationsstudien haben gezeigt, dass AutoML-GPT für viele Aufgaben der künstlichen Intelligenz (einschließlich CV-Aufgaben und NLP-Aufgaben) vielseitig und effektiv ist.
AutoML-GPT ist ein kollaboratives System, das auf Daten und Modellinformationen basiert, um Eingabeaufforderungsabsätze zu formatieren. Unter ihnen fungiert LLM als Controller und mehrere Expertenmodelle fungieren als kollaborative Ausführende. Der Arbeitsablauf von AutoML-GPT umfasst vier Phasen: Datenverarbeitung, Modellarchitekturentwurf, Hyperparameteranpassung und Trainingsprotokollerstellung.
Im Einzelnen ist der Arbeitsmechanismus von AutoML-GPT wie folgt:
Eingabezerlegung
AutoML – Die erste Stufe von GPT besteht darin, dass LLM Benutzereingaben akzeptiert. Um die Leistung von LLM zu verbessern und effektive Eingabeaufforderungen zu generieren, werden in dieser Studie spezifische Anweisungen für Eingabeaufforderungen übernommen. Diese Anweisungen umfassen drei Teile: Datenkarte, Modellkarte, Bewertungsmetriken und zusätzliche Anforderungen.
Wie in Abbildung 2 unten dargestellt, bestehen die wichtigsten Teile der Datenkarte aus dem Namen des Datensatzes, dem Typ des Eingabedatensatzes (z. B. Bilddaten oder Textdaten), dem Beschriftungsbereich (z. B. Kategorie oder Auflösung) und Standardbewertungsmetriken .
Wie in Abbildung 3 unten dargestellt, besteht die Modellkarte aus Modellnamen, Modellstruktur, Modellbeschreibung und Architektur-Hyperparametern. Durch die Bereitstellung dieser Informationen kann Model Card LLM mitteilen, welche Modelle vom gesamten maschinellen Lernsystem verwendet werden und welche Präferenzen der Benutzer für die Modellarchitektur hat.
Zusätzlich zur Datenkarte und Modellkarte können Benutzer auch weitere Bewertungsbenchmarks, Bewertungsmetriken oder andere Einschränkungen anfordern. AutoML-GPT stellt LLM diese Aufgabenspezifikationen als übergeordnete Anweisungen zur entsprechenden Analyse der Benutzeranforderungen zur Verfügung.
Wenn eine Reihe von Aufgaben verarbeitet werden müssen, muss AutoML-GPT das entsprechende Modell für jede Aufgabe anpassen. Um dieses Ziel zu erreichen, muss das System zunächst die Modellbeschreibung von der Modellkarte und Benutzereingaben abrufen.
Dann verwendet AutoML-GPT den kontextbezogenen Aufgabenmodellzuordnungsmechanismus, um Modelle dynamisch Aufgaben zuzuweisen. Dieser Ansatz ermöglicht einen inkrementellen Modellzugriff und sorgt durch die Kombination der Modellbeschreibung mit einem besseren Verständnis der Benutzerbedürfnisse für mehr Offenheit und Flexibilität.
Hyperparameter mit vorhergesagten Trainingsprotokollen abstimmen
AutoML-GPT legt Hyperparameter basierend auf Datenkarte und Modellkarte fest und sagt die Leistung voraus, indem Trainingsprotokolle von Hyperparametern erstellt werden. Das System führt das Training automatisch durch und gibt Trainingsprotokolle zurück. Modellleistungstrainingsprotokolle im Datensatz zeichnen verschiedene Metriken und Informationen auf, die während des Trainingsprozesses gesammelt wurden. Dies hilft, den Modelltrainingsfortschritt zu verstehen, potenzielle Probleme zu identifizieren und die Wirksamkeit der ausgewählten Architektur, Hyperparameter und Optimierungsmethoden zu bewerten.
Um die Leistung von AutoML-GPT zu bewerten, verwendete diese Studie ChatGPT (die GPT-4-Version von OpenAI) zur Implementierung und führte mehrere Experimente durch, um die Wirkung von AutoML-GPT aus mehreren Perspektiven zu demonstrieren.
Abbildung 4 unten zeigt die Ergebnisse des Trainings für den unbekannten Datensatz mit AutoML-GPT:
Abbildung 5 unten zeigt den Prozess, bei dem AutoML-GPT die Zielerkennungsaufgabe für den COCO-Datensatz abschließt:
Abbildung 6 unten zeigt die experimentellen Ergebnisse von AutoML-GPT für den NQ Open-Datensatz (Natural Questions Open-Datensatz, [Kwiatkowski et al., 2019]):
Diese Studie wurde auch verwendet XGBoost hat AutoML-GPT anhand des UCI-Datensatzes für Erwachsene [Dua und Graff, 2017] ausgewertet, um seine Leistung bei Klassifizierungsaufgaben zu untersuchen. Die experimentellen Ergebnisse sind in Abbildung 7 unten dargestellt:
Interessierte Leser können das Originalpapier lesen um mehr über die Forschungsdetails zu erfahren.
Das obige ist der detaillierte Inhalt vonGPT fungiert als Gehirn und weist mehrere Modelle an, zusammenzuarbeiten, um verschiedene Aufgaben zu erledigen. Das allgemeine System AutoML-GPT ist da.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!