Xi Xiaoyao Technology Talk Original
Autor | Die Arbeit von InternChat legt Wert auf Benutzerfreundlichkeit, indem bei multimodalen Aufgaben mit dem Chatbot auf eine Weise interagiert wird, die über die Sprache (Cursor und Gesten) hinausgeht. Interessant ist auch der Name InternChat, der für Interaktion, Nonverbal und Chatbots steht. Im Gegensatz zu bestehenden interaktiven Systemen, die auf reiner Sprache basieren, verbessert iChat die Effizienz der Kommunikation zwischen Benutzern und Chatbots erheblich, indem es Zeigeanweisungen hinzufügt. Darüber hinaus stellt der Autor auch ein großes visuelles Sprachmodell namens Husky bereit, das Erfassung und visuelle Beantwortung von Fragen durchführen kann und auch GPT-3.5-Turbo mit nur 7 Milliarden Parametern beeindrucken kann.
Aufgrund der Beliebtheit der Demo-Website hat das Team die Erfahrungsseite jedoch vorübergehend offiziell geschlossen. Lassen Sie uns zunächst den Inhalt dieser Arbeit anhand des folgenden Videos verstehen Interaktion mit Chatbots Beyond Language
Papierlink:
https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1
Demo. Adresse:
https://www.php.cn/link/e355ad06c5a89f911fbb0 aff2de52435
Projekt Adresse:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b
Hauptfunktionen des Systems
Der Autor hat auf der Projekthomepage einige Aufgaben-Screenshots bereitgestellt, damit Sie einige Funktionen und Effekte intuitiv erkennen können dieses interaktive System:
(b) Interaktive Bildbearbeitung
(c) Bilderzeugung
(d) Interaktive visuelle Frage und Antwort
(e) Interaktive Bildgenerierung Zentrale Aufgaben: Damit Computer verstehen, was sie in der Welt sehen, und entsprechend reagieren.Kommunikation in Form von nonverbalen Anweisungen: Zeigeaktionen wie Cursor und Gesten.
▲ Abbildung 1 Die Gesamtarchitektur von iChat
iChat kombiniert die Vorteile von Zeige- und Sprachbefehlen, um visionsorientierte Aufgaben auszuführen. Wie in Abbildung 1 dargestellt, besteht dieses System aus drei Hauptkomponenten:
Eine Wahrnehmungseinheit, die Zeigeanweisungen auf Bildern oder Videos verarbeitet;
Ein LLM-Controller mit einem Hilfssteuermechanismus, der Sprachanweisungen genau analysieren kann; Integriertes HuggingFace Ein Open-World-Toolkit mit verschiedenen Online-Modellen, vom Benutzer trainierten privaten Modellen und anderen Anwendungen (z. B. Taschenrechner, Suchmaschinen). Es kann effektiv auf drei Ebenen arbeiten:Wenn ein reines Sprachsystem die Aufgabe nicht abschließen kann, kann das System, wie in Abbildung 2 dargestellt, dennoch komplexe interaktive Aufgaben erfolgreich ausführen.
▲ Abbildung 2 weist auf die Vorteile sprachgesteuerter interaktiver Systeme hin
Betrachten wir zunächst die Kombination verbaler und nonverbaler Anweisungen, um den Kommunikationseffekt mit dem interaktiven System zu verbessern. Um die Vorteile dieses Hybridmodells gegenüber reinen Sprachanweisungen aufzuzeigen, führte das Forschungsteam eine Benutzerbefragung durch. Die Teilnehmer chatteten mit Visual ChatGPT und iChat und gaben Feedback zu ihren Erfahrungen mit der Anwendung. Die Ergebnisse in den Tabellen 1 und 2 zeigen, dass iChat effizienter und benutzerfreundlicher ist als Visual ChatGPT.
▲Tabelle 1 Benutzerumfrage zu „Etwas entfernen“
▲Tabelle 2 Benutzerumfrage zu „Etwas durch etwas ersetzen“
Allerdings gibt es in diesem System immer noch einige Einschränkungen, darunter :
Auf der auf der Projekthomepage aufgeführten Planliste stehen noch mehrere Ziele, die noch nicht erreicht wurden. Darunter ist auch die chinesische Interaktion, die der Redakteur derzeit auf dem neuen Dialogsystem erleben muss Es gibt noch kein chinesisches Problem, aber es scheint keine Lösung zu geben, da die meisten multimodalen Datensätze auf Englisch basieren Die Chineseisierung wird noch einige Zeit in Anspruch nehmen.
Das obige ist der detaillierte Inhalt vonEine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!