Die stärkste Kombination: HuggingFace+ChatGPT——
HuggingGPT, sie ist da!
Geben Sie einfach eine KI-Aufgabe, z. B. „Welche Tiere sind auf dem Bild unten und wie viele von jeder Art gibt es?“
Es kann Ihnen dabei helfen, automatisch zu analysieren, welche KI-Modelle benötigt werden, und dann das entsprechende Modell direkt auf HuggingFace aufzurufen, um Sie bei der Ausführung und Vervollständigung zu unterstützen.
Im gesamten Prozess müssen Sie lediglich Ihre Anforderungen in natürlicher Sprache ausgeben.
Dieses Ergebnis der Zusammenarbeit zwischen der Zhejiang-Universität und Microsoft Research Asia wurde sofort nach seiner Veröffentlichung schnell populär.
Der NVIDIA-KI-Forscher Jim Fan sagte direkt:
Das ist der interessanteste Artikel, den ich diese Woche gelesen habe. Seine Idee kommt der „Everything App“ sehr nahe (alles ist eine App und Informationen werden direkt von der KI gelesen).
Und ein Internetnutzer „schlägt sich direkt auf den Oberschenkel“:
Ist das nicht der „Pakettransfer-Mann“ von ChatGPT?
KI entwickelt sich rasant weiter und hinterlässt uns etwas zu essen...
Also, was genau ist los?
Wenn diese Kombination tatsächlich nur ein „Hugging Man“ ist, dann ist das Muster zu klein.
Seine wahre Bedeutung ist AGI.
Wie der Autor sagte, ist ein wichtiger Schritt in Richtung AGI die Fähigkeit, komplexe KI-Aufgaben mit unterschiedlichen Domänen und Modi zu lösen.
Davon sind unsere aktuellen Ergebnisse noch weit entfernt – viele Modelle können nur eine bestimmte Aufgabe gut erfüllen.
Die Leistung des LLM für große Sprachmodelle in Bezug auf Sprachverständnis, -generierung, -interaktion und -schlussfolgerung brachte den Autor jedoch zum Nachdenken:
Sie können als Zwischencontroller zur Verwaltung aller vorhandenen KI-Modelle verwendet werden, indem sie „alle mobilisieren und kombinieren“. of AI“ zur Lösung komplexer KI-Aufgaben.
In diesem System ist die Sprache die universelle Schnittstelle.
So wurde HuggingGPT geboren.
Der Engineering-Prozess ist in vier Schritte unterteilt:
Erstens die Aufgabenplanung. ChatGPT analysiert die Anforderungen des Benutzers in einer Aufgabenliste und bestimmt die Ausführungsreihenfolge und Ressourcenabhängigkeiten zwischen Aufgaben.
Zweitens die Modellauswahl. ChatGPT weist Aufgaben geeignete Modelle zu, basierend auf den Beschreibungen jedes auf HuggingFace gehosteten Expertenmodells.
Dann wird die Aufgabe ausgeführt. Das ausgewählte Expertenmodell auf dem Hybridendpunkt (einschließlich lokaler Inferenz und HuggingFace-Inferenz) führt die zugewiesenen Aufgaben gemäß der Aufgabensequenz und den Abhängigkeiten aus und gibt die Ausführungsinformationen und Ergebnisse an ChatGPT weiter.
Zum Schluss die Ergebnisse ausgeben. ChatGPT fasst die Ausführungsprozessprotokolle und Inferenzergebnisse jedes Modells zusammen und gibt die endgültige Ausgabe aus.
Wie im Bild unten gezeigt.
Angenommen, wir stellen eine solche Anfrage:
Bitte erstellen Sie ein Bild eines Mädchens, das ein Buch liest. Ihre Haltung ist die gleiche wie die des Jungen in example.jpg. Beschreiben Sie dann mit Ihrer Stimme das neue Bild.
Sie können sehen, wie HuggingGPT es in 6 Unteraufgaben zerlegt und das jeweils auszuführende Modell auswählt, um das Endergebnis zu erhalten.
Was ist die konkrete Wirkung?
Der Autor führte tatsächliche Messungen mit gpt-3.5-turbo und text-davinci-003 durch, zwei Varianten, auf die über die OpenAI-API öffentlich zugegriffen werden kann.
Wie in der folgenden Abbildung dargestellt:
Wenn zwischen Aufgaben Ressourcenabhängigkeiten bestehen, kann HuggingGPT die spezifischen Aufgaben entsprechend der abstrakten Anforderung des Benutzers korrekt analysieren und die Bildkonvertierung abschließen.
In Audio- und Videoaufgaben wurde auch die Fähigkeit demonstriert, die Zusammenarbeit zwischen Modellen zu organisieren, indem die beiden Modelle parallel bzw. seriell ausgeführt wurden, ein Video von „Astronauts Walking in Space“ und Dubbing funktioniert.
Darüber hinaus können Eingaberessourcen mehrerer Benutzer integriert werden, um einfache Überlegungen anzustellen, beispielsweise um zu zählen, wie viele Zebras sich auf den folgenden drei Bildern befinden.
Zusammenfassung in einem Satz: HuggingGPT kann bei verschiedenen Formen komplexer Aufgaben gute Leistungen zeigen.
Derzeit ist der Artikel von HuggingGPT veröffentlicht und das Projekt befindet sich im Aufbau. Nur ein Teil des Codes ist Open Source und hat 1,4.000 Sterne erhalten.
Uns ist aufgefallen, dass der Projektname nicht HuggingGPT heißt, sondern der KI-Butler JARVIS in Iron Man.
Einige Leute haben festgestellt, dass die Idee davon dem gerade im März veröffentlichten Visual ChatGPT sehr ähnlich ist: Letzteres HuggingGPT, hauptsächlich wurde der Umfang der aufrufbaren Modelle um mehr erweitert, einschließlich Menge und Typ.
Ja, tatsächlich haben sie alle einen gemeinsamen Autor: das Microsoft Asia Research Institute.
Konkret ist der erste Autor von Visual ChatGPT der leitende MSRA-Forscher Wu Chenfei, und der korrespondierende Autor ist der leitende MSRA-Forscher Duan Nan. Zu
HuggingGPT gehören zwei Co-Autoren:
Shen Yongliang, der von der Zhejiang-Universität kommt und diese Arbeit während seines Praktikums bei MSRA abgeschlossen hat;
Song Kaitao, ein Forscher bei MSRA.
Der korrespondierende Autor ist Zhuang Yueting, Professor der Fakultät für Informatik der Zhejiang-Universität.
Abschließend sind die Internetnutzer sehr aufgeregt über die Geburt dieses leistungsstarken neuen Tools. Einige Leute sagten:
ChatGPT ist zum Oberbefehlshaber aller von Menschen geschaffenen KI geworden.
Manche Leute glauben auch, dass
AGI möglicherweise kein LLM ist, sondern mehrere miteinander verbundene Modelle, die durch einen „Zwischenhändler“-LLM verbunden sind.
Haben wir also die Ära der „Semi-AGI“ begonnen?
Papieradresse:https://www.php.cn/link/1ecdec353419f6d7e30857d00d0312d1
Projekt.Link:https://www.php.cn/link/859555c74e9afd 45ab 771c615c1e49a6
Referenzlink:https://www.php.cn/link/62d2b7ba91f34c0ac08aa11c359a8d2c
Das obige ist der detaillierte Inhalt vonHuggingGPT ist beliebt: Ein ChatGPT steuert alle KI-Modelle und hilft Menschen automatisch bei der Erledigung von KI-Aufgaben. Netizens: Lassen Sie Ihren Mund essen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!