ChatGPT demonstriert beeindruckend leistungsstarke Dialog-, Kontextlern- und Codegenerierungsfunktionen für eine Vielzahl von Open-Domain-Aufgaben, und das erworbene gesunde Wissen kann auch Lösungszusammenfassungen auf hoher Ebene für domänenspezifische Aufgaben generieren. Welche anderen Probleme muss ChatGPT jedoch zusätzlich zu leistungsfähigeren Lern-, Verständnis- und Generierungsfunktionen lösen?
Microsoft hat kürzlich TaskMatrix.AI veröffentlicht, das möglicherweise eine weitere Richtung im Ökosystem der künstlichen Intelligenz darstellt und Basismodelle mit Millionen von APIs verbindet, um Aufgaben zu erledigen. Es ist möglicherweise auch eine Kombination aus Toolformer und chatGPT eine weitere Zukunft für LLM.
ChatGPT oder GPT-4 haben bei einigen Spezialaufgaben immer noch Schwierigkeiten, weil ihnen beim Vortraining nicht genügend domänenspezifische Daten fehlen oder sie eine schlechte Leistung erbringen. Es treten häufig Fehler auf in neuronalen Netzwerkberechnungen, die Aufgaben genau ausführen müssen. Andererseits gibt es viele bestehende Modelle und Systeme (symbolisch oder neuronal netzwerkbasiert), die einige domänenspezifische Aufgaben sehr gut erfüllen können. Aufgrund unterschiedlicher Implementierungen oder Arbeitsmechanismen sind sie jedoch nicht mit dem Basismodell kompatibel.
Darüber hinaus gibt es unzählige Anwendungsfälle für KI, die nicht nur in der digitalen Welt, sondern auch in der physischen Welt bei einer Vielzahl von Aufgaben helfen können, von der Fotoverarbeitung bis zur Steuerung von Smart-Home-Geräten liegen oft außerhalb der Vorstellungskraft.
Daher besteht Bedarf an einem Mechanismus, der das Basismodell nutzen kann, um eine Gliederung einer Aufgabenlösung vorzuschlagen und dann automatisch einige Unteraufgaben in der Gliederung mit vorgefertigten Modellen und System-APIs abzugleichen besondere Fähigkeiten, um sie zu vervollständigen. TaskMatrix.AI ist ein solcher Mechanismus.
TaskMatrix.AI bedient eine Vielzahl von Aufgaben durch die Kombination von Basismodellen mit vorhandenen Modellen und APIs. Hier sind die Aufgaben, die TaskMatrix.AI ausführen kann:
Die Gesamtarchitektur von TaskMatrix.AI und seine vier Hauptkomponenten:
Diese 4 Subsysteme arbeiten zusammen, um TaskMatrix.AI zu ermöglichen, Benutzerziele zu verstehen und basierend auf dem ausführbaren Code von auszuführen die API. Das Multimodal Conversation Foundation Model (MCFM) dient als Hauptschnittstelle für die Benutzerkommunikation und kann multimodale Kontexte verstehen. API Platform bietet ein einheitliches API-Dokumentationsschema und einen Ort zum Speichern von Millionen von APIs. Der API-Selektor nutzt das Verständnis von MCFM für die Ziele des Benutzers, um relevante APIs zu empfehlen. Schließlich führt der API-Executor den von der entsprechenden API generierten Operationscode aus und gibt die Ergebnisse zurück. Darüber hinaus nutzte das Team auch Reinforcement Learning with Human Feedback (RLHF)-Technologie, um ein Belohnungsmodell zu trainieren, das die Aufgabenmatrix (taskMatrix) optimieren kann. Diese Methode kann MCFM- und API-Selektoren dabei helfen, optimale Strategien zu finden und die Leistung komplexer Aufgaben zu verbessern.
3.1 Multimodales Konversationsbasismodell (MCFM) MCFM verfügt über vier Eingaben: Parameter des Basismodells, API-Plattform, Benutzeranweisungen und Sitzungskontext. Anhand dieser Eingaben generiert das Modell Betriebscode, um die Anweisungen des Benutzers auszuführen. Darüber hinaus sollte ein ideales multimodales Konversationsrahmenmodell (MCFM) die folgenden vier Hauptmerkmale aufweisen:ChatGPT und GPT-4 sind zwei Beispiele für Modelle mit diesen für MCFM erforderlichen Funktionen. GPT-4 ist jedoch besser geeignet, da es multimodale Eingaben unterstützt.
Die API-Plattform hat zwei Hauptfunktionen: das Speichern von APIs und die Verwaltung der Entwickler oder Eigentümer von APIs. Die API-Plattform verfügt über eine einheitliche API-Dokumentvorlage, die fünf Aspekte jedes API-Dokuments enthält:
API-Beschreibungsbeispiel: Öffnen Sie eine Datei
<code>API Name: open_local_fileAPI Parameter: (file_path:string, model:string="r"). file_path: string, the pathname (absolute or relative to the current working directory) of the file to be opened.mode: string="r", the mode is an optional string that specifies the mode in which the file is opened. It defaults to "r" which means open for reading in text mode. Other common values are "w" for writing. This file will return a File object or OSError.API Description: Open the file and return a corresponding file object. If the file cannot be opened,an OSError is raised.Usage Example: f = open_local_file("example.txt", "w")Composition Instructions: Open should be used before reading and editing. The file should be closed by close_local_file after all operations.</code>
Der API-Selektor dient dazu, die API von der API-Plattform zu identifizieren und auszuwählen, die den Aufgabenanforderungen am besten entspricht. Durch den Abruf semantisch relevanter APIs kann die Fülle an APIs einer API-Plattform reduziert werden. API-Selektoren können Modulstrategien verwenden, um verwandte APIs schnell zu finden.
Modulstrategie bezieht sich auf die Methode, APIs basierend auf ihren Domänen in bestimmte Pakete oder Module zu organisieren. Jedes Modul entspricht einem bestimmten Bereich, beispielsweise visuellen Modellen, Mathematik, spezifischer Software oder physischer Ausrüstung. Mithilfe dieser Strategie kann der API-Selektor schnell relevante APIs finden, die den Missionsanforderungen und der Lösungsskizze entsprechen, wie sie von MCFM verstanden werden. Dieser Ansatz trägt dazu bei, den API-Auswahlprozess zu vereinfachen und erleichtert das Abrufen semantisch relevanter APIs von der API-Plattform.
Action Executor dient zum Ausführen von Aktionscode. KI verwendet einen Aktionsausführer, um eine Vielzahl von APIs auszuführen, von einfachen HTTP-Anfragen bis hin zu komplexen Algorithmen oder KI-Modellen, die mehrere Eingabeparameter erfordern.
Aktionsausführer benötigen außerdem einen Überprüfungsmechanismus, um die Genauigkeit und Zuverlässigkeit zu verbessern und zu bestätigen, ob die Ergebnisse des generierten Codes den von Menschen vorgegebenen Aufgaben entsprechen.
TaskMatrix.AI wird RLHF nutzen, um MCFM- und API-Selektoren zu verbessern und so eine bessere Leistung bei komplexen Aufgaben zu erzielen.
RLHF wird sich der Optimierung von API-Selektoren widmen und dabei ein trainiertes Belohnungsmodell verwenden, das auf API-Feedback basiert:
Dies ermöglicht die Erstellung einer API-Dokumentation auf die optimierteste Art und Weise, um eine bestimmte API zu verwenden.
Bei welchen Aufgaben kann KI helfen?
TaskMatrix. KI kombiniert mit kontinuierlichen Entwicklungen bei zugrunde liegenden Modellen, Cloud-Diensten, Robotik und dem Internet der Dinge hat das Potenzial, eine zukünftige Welt mit erhöhter Produktivität und Kreativität zu schaffen.
Basierend auf den multimodalen Eigenschaften von MCFM kann TaskMatrix.AI Visualisierungsaufgaben ausführen und Sprache und Bilder als Eingabe verwenden. Einige der visuellen Aufgaben, die es ausführen kann, zeigt das Bild unten, wie TaskMatrix.AI auf VisualChatGPT aufbaut und VQA-Aufgaben besser bewältigen kann.
Bildbearbeitung zum Löschen oder Ersetzen von Objekten im Bild, auch über TaskMatrix.AI. Mithilfe von Bildverarbeitungstechniken oder Computeralgorithmen „Image-to-Sketch/Depth/Hed/Line“ können Bilder in Skizzen, Tiefe, Gesamtkantenerkennung oder Linien umgewandelt werden. „Skizze/Tiefe/Hed/Linie-zu-Bild“ ist das Gegenteil von oben: Es wird ein Bild basierend auf den angegebenen Optionen generiert.
Das Bild unten zeigt ein Beispiel dafür, wie TaskMatrix.AI mithilfe von drei API-Aufrufen (Bild-Fragen und Antworten, Bildunterschriften und Objekte im Bild ersetzen) in einer Lösungsskizze definiert und ausgeführt wird.
Ein weiterer Anwendungsfall für TaskMatrix.AI ist die Erstellung großer multimodaler (Bild- und Text-)Inhalte, um die Zeichenbeschränkungen anderer Modelle aufzuheben.
Im folgenden Beispiel können wir sehen, wie TaskMatrix.AI allgemeine Anweisungen des Benutzers entgegennimmt und eine vernünftige Antwort generiert.
TaskMatrix.AI kann die Arbeitsbelastung im Büro leicht reduzieren, indem es Benutzeranweisungen versteht, die über Sprache empfangen werden, und Aufgaben automatisiert. Darüber hinaus ermöglicht es die Nutzung komplexer Software ohne umfangreiche Schulung, sodass sich die Mitarbeiter auf dringendere Aufgaben konzentrieren können.
Das folgende Beispiel zeigt ein Gespräch zwischen TaskMatrix.AI und jemandem, der beim Erstellen von PowerPoint-Folien verschiedene APIs verwendet.
TaskMatrix.AI kann wie eine Smart-Home-Automatisierung funktionieren, mit allen Geräten im Haus kommunizieren und als zentraler Verbindungspunkt zwischen ihnen fungieren. Das Bild unten zeigt ein Gespräch zwischen einer Person und TaskMatrix.AI, das hauseigene Robotersoftware und -hardware nutzt, um tägliche Aufgaben zu erledigen.
Darüber hinaus kann TaskMatrix.AI in vielen anderen Szenarien verwendet werden. Die einzige Voraussetzung ist, dass es APIs wie den Zugriff auf Metaverse oder Web3 nutzen kann. 5. Herausforderungen von TaskMatrix.AI Verschiedene Eingaben, von Lernen aus menschlichem Feedback bis hin zum Einsatz von gesundem Menschenverstand, um Aufgaben in höchster Qualität zu erledigen. Die Bestimmung des für TaskMatrix.AI erforderlichen Mindestsatzes an Modalitäten und deren Schulung bleibt eine Herausforderung.
Die Verwendung von Millionen von APIs zur Vervollständigung von Benutzeranweisungen bringt neue Herausforderungen mit sich, die über die Freitextgenerierung hinausgehen, und es ist von entscheidender Bedeutung, MCFM relevante APIs zur Lösung spezifischer Aufgaben zu empfehlen. Bei komplexen Aufgaben kann TaskMatrix.AI möglicherweise nicht sofort eine Lösung finden. Stattdessen sollte MCFM mit dem Benutzer interagieren und verschiedene mögliche Lösungen ausprobieren, um die am besten geeignete Lösung zu finden.
Das obige ist der detaillierte Inhalt vonInterpretation von TaskMatrix.AI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!