Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

WBOY
Freigeben: 2023-05-15 17:55:06
nach vorne
1051 Leute haben es durchsucht

Xi Xiaoyao Technology Talk Original
Autor | Die Arbeit von InternChat legt Wert auf Benutzerfreundlichkeit, indem bei multimodalen Aufgaben mit dem Chatbot auf eine Weise interagiert wird, die über die Sprache (Cursor und Gesten) hinausgeht. Interessant ist auch der Name InternChat, der für Interaktion, Nonverbal und Chatbots steht. Im Gegensatz zu bestehenden interaktiven Systemen, die auf reiner Sprache basieren, verbessert iChat die Effizienz der Kommunikation zwischen Benutzern und Chatbots erheblich, indem es Zeigeanweisungen hinzufügt. Darüber hinaus stellt der Autor auch ein großes visuelles Sprachmodell namens Husky bereit, das Erfassung und visuelle Beantwortung von Fragen durchführen kann und auch GPT-3.5-Turbo mit nur 7 Milliarden Parametern beeindrucken kann.

Aufgrund der Beliebtheit der Demo-Website hat das Team die Erfahrungsseite jedoch vorübergehend offiziell geschlossen. Lassen Sie uns zunächst den Inhalt dieser Arbeit anhand des folgenden Videos verstehen Interaktion mit Chatbots Beyond Language

Papierlink:

https://www.php.cn/link/7c9966afcc510cf5a40621d1d92bdaf1

Demo. Adresse:
https://www.php.cn/link/e355ad06c5a89f911fbb0 aff2de52435

Projekt Adresse:
https://www.php.cn/link/2d13d901966a8eaa7f9c943eba6a540b

Hauptfunktionen des Systems
Der Autor hat auf der Projekthomepage einige Aufgaben-Screenshots bereitgestellt, damit Sie einige Funktionen und Effekte intuitiv erkennen können dieses interaktive System:

(a) Verdeckte Objekte entfernen

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen. (b) Interaktive Bildbearbeitung


(c) Bilderzeugung

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

(d) Interaktive visuelle Frage und Antwort

(e) Interaktive Bildgenerierung Zentrale Aufgaben: Damit Computer verstehen, was sie in der Welt sehen, und entsprechend reagieren.

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.Kommunikation in Form von nonverbalen Anweisungen: Zeigeaktionen wie Cursor und Gesten.

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.▲ Abbildung 1 Die Gesamtarchitektur von iChat

iChat kombiniert die Vorteile von Zeige- und Sprachbefehlen, um visionsorientierte Aufgaben auszuführen. Wie in Abbildung 1 dargestellt, besteht dieses System aus drei Hauptkomponenten:

Eine Wahrnehmungseinheit, die Zeigeanweisungen auf Bildern oder Videos verarbeitet; Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

Ein LLM-Controller mit einem Hilfssteuermechanismus, der Sprachanweisungen genau analysieren kann;

Integriertes HuggingFace Ein Open-World-Toolkit mit verschiedenen Online-Modellen, vom Benutzer trainierten privaten Modellen und anderen Anwendungen (z. B. Taschenrechner, Suchmaschinen).

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

Es kann effektiv auf drei Ebenen arbeiten:

  1. Grundlegende Interaktion;
  2. Sprachgesteuerte Interaktion;
  3. Punkt-zu-Sprache-gestützte Interaktion.

Wenn ein reines Sprachsystem die Aufgabe nicht abschließen kann, kann das System, wie in Abbildung 2 dargestellt, dennoch komplexe interaktive Aufgaben erfolgreich ausführen.

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

▲ Abbildung 2 weist auf die Vorteile sprachgesteuerter interaktiver Systeme hin

Experiment

Betrachten wir zunächst die Kombination verbaler und nonverbaler Anweisungen, um den Kommunikationseffekt mit dem interaktiven System zu verbessern. Um die Vorteile dieses Hybridmodells gegenüber reinen Sprachanweisungen aufzuzeigen, führte das Forschungsteam eine Benutzerbefragung durch. Die Teilnehmer chatteten mit Visual ChatGPT und iChat und gaben Feedback zu ihren Erfahrungen mit der Anwendung. Die Ergebnisse in den Tabellen 1 und 2 zeigen, dass iChat effizienter und benutzerfreundlicher ist als Visual ChatGPT.

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

▲Tabelle 1 Benutzerumfrage zu „Etwas entfernen“

Eine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.

▲Tabelle 2 Benutzerumfrage zu „Etwas durch etwas ersetzen“

Zusammenfassung

Allerdings gibt es in diesem System immer noch einige Einschränkungen, darunter :

  • Die Wirksamkeit von iChat hängt stark von der Qualität und Genauigkeit des zugrunde liegenden Open-Source-Modells ab. Diese Modelle können jedoch Einschränkungen oder Vorurteile aufweisen, die sich negativ auf die Leistung von iChat auswirken.
  • Da Benutzerinteraktionen komplexer werden oder die Anzahl der Instanzen zunimmt, muss das System Genauigkeit und Reaktionszeit aufrechterhalten, was für iChat eine Herausforderung sein kann.
  • Darüber hinaus mangelt es an einer erlernbaren Zusammenarbeit zwischen aktuellen visionären und sprachbasierten Modellen, beispielsweise an Features, die durch Instruktionsdaten angepasst werden können.
  • iChat kann Schwierigkeiten haben, mit neuartigen oder ungewöhnlichen Situationen außerhalb der Trainingsdaten umzugehen, was zu Leistungseinbußen führt.
  • Das Erreichen einer nahtlosen Integration über verschiedene Geräte und Plattformen hinweg kann aufgrund unterschiedlicher Hardwarefunktionen, Softwareeinschränkungen und Zugänglichkeitsanforderungen eine Herausforderung darstellen.

Auf der auf der Projekthomepage aufgeführten Planliste stehen noch mehrere Ziele, die noch nicht erreicht wurden. Darunter ist auch die chinesische Interaktion, die der Redakteur derzeit auf dem neuen Dialogsystem erleben muss Es gibt noch kein chinesisches Problem, aber es scheint keine Lösung zu geben, da die meisten multimodalen Datensätze auf Englisch basieren Die Chineseisierung wird noch einige Zeit in Anspruch nehmen.

Das obige ist der detaillierte Inhalt vonEine Eingabeaufforderung ist nicht mehr erforderlich. Sie können das multimodale Dialogsystem nur mit Ihren Händen spielen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage