Die schnelle „Mutation“ großer Sprachmodelle hat die Richtung der menschlichen Gesellschaft zunehmend zu Science-Fiction gemacht. Nach dem Aufleuchten dieses Technologiebaums scheint uns die Realität von „Terminator“ immer näher zu rücken.
Vor ein paar Tagen hat Microsoft gerade ein experimentelles Framework angekündigt, das ChatGPT zur Steuerung von Robotern und Drohnen nutzen kann.
Natürlich ist Google nicht weit dahinter. Am Montag hat ein Team von Google und der Technischen Universität Berlin das größte visuelle Sprachmodell der Geschichte auf den Markt gebracht – PaLM-E.
Papieradresse: https://arxiv.org/abs/2303.03378
Als multimodales verkörpertes visuelles Sprachmodell (VLM) kann PaLM-E nicht nur Bilder verstehen können auch Sprache verstehen und erzeugen und sogar beides kombinieren, um komplexe Roboteranweisungen zu verarbeiten.
Darüber hinaus beträgt die endgültige Anzahl der Parameter von PaLM-E durch die Kombination des PaLM-540B-Sprachmodells und des visuellen Transformer-Modells ViT-22B bis zu 562 Milliarden.
PaLM-E, der vollständige Name von Pathways Language Model mit Embodied, ist ein verkörpertes visuelles Sprachmodell.
Seine Stärke liegt in seiner Fähigkeit, visuelle Daten zu nutzen, um seine Sprachverarbeitungsfähigkeiten zu verbessern.
Was passiert, wenn wir das größte visuelle Sprachmodell trainieren und es mit einem Roboter kombinieren? Das Ergebnis ist PaLM-E, ein universeller, verkörperter visueller Sprachgeneralist mit 562 Milliarden Parametern – der Robotik, Vision und Sprache umfasst. Dem Papier zufolge ist PaLM-E ein reines Decoder-LLM mit einem Präfix oder einer Eingabeaufforderung , kann die Textvervollständigung autoregressiv generiert werden.
Die Trainingsdaten sind multimodale Sätze mit visueller, kontinuierlicher Zustandsschätzung und Texteingabekodierung.
Nach dem Training mit einer einzigen Bildaufforderung kann PaLM-E den Roboter nicht nur bei der Ausführung einer Vielzahl komplexer Aufgaben anleiten, sondern auch eine Sprache zur Beschreibung des Bildes generieren.
Man kann sagen, dass PaLM-E eine beispiellose Flexibilität und Anpassungsfähigkeit aufweist und einen großen Fortschritt darstellt, insbesondere im Bereich der Mensch-Computer-Interaktion.
Noch wichtiger ist, dass die Forscher zeigten, dass das Training verschiedener gemischter Aufgabenkombinationen mehrerer Roboter und allgemeiner visueller Sprache verschiedene Methoden zur Übertragung von visueller Sprache auf verkörperte Entscheidungsfindung ermöglichen kann, damit Roboter Daten planen können effektiv.
Darüber hinaus zeichnet sich PaLM-E besonders dadurch aus, dass es über eine starke positive Migrationsfähigkeit verfügt.
PaLM-E, das in verschiedenen Bereichen trainiert wurde, einschließlich allgemeiner Seh- und Sprachaufgaben im Internetmaßstab, erzielt eine deutlich verbesserte Leistung im Vergleich zu Robotermodellen, die einzelne Aufgaben ausführen.
Und im Modellmaßstab beobachteten die Forscher einen deutlichen Vorteil.
Je größer das Sprachmodell, desto stärker bleibt die Sprachfähigkeit beim Training visueller Sprache und Roboteraufgaben erhalten.
Aus der Perspektive des Modellmaßstabs behält PaLM-E mit 562 Milliarden Parametern fast alle seine Sprachfähigkeiten bei.
Obwohl PaLM-E nur an einem einzigen Bild trainiert wurde, zeigt es herausragende Fähigkeiten bei Aufgaben wie dem multimodalen Denken in Ketten und dem Denken mit mehreren Bildern.
PaLM-E erreicht neue SOTA beim OK-VQA-Benchmark.
Im Test zeigten die Forscher, wie sie mit PaLM-E Planungs- und Langzeitaufgaben für zwei verschiedene Einheiten durchführen können.
Es ist erwähnenswert, dass alle diese Ergebnisse mit demselben Modell erzielt wurden, das auf denselben Daten trainiert wurde.
In der Vergangenheit benötigten Roboter normalerweise menschliche Hilfe, um umfangreiche Aufgaben zu erledigen. Aber jetzt kann PaLM-E dies durch unabhängiges Lernen tun.
Anweisungen wie „Nimm die Kartoffelchips aus der Schublade“ beinhalten beispielsweise mehrere Planungsschritte und visuelles Feedback von der Kamera des Roboters.
PaLM-E, das durchgängig trainiert wurde, kann den Roboter direkt aus Pixeln planen. Da das Modell in einen Regelkreis eingebunden ist, ist der Roboter robust gegenüber Störungen unterwegs beim Aufnehmen von Kartoffelchips.
Mensch: Bring mir ein paar Kartoffelchips.
Roboter: 1. Gehe zur Schublade. 2. Öffne die obere Schublade. 3. Nimm die grünen Kartoffelchips aus der oberen Schublade. 4. Lege sie auf die Arbeitsplatte.
Ähnlicherweise führt der Roboter die Aufgabe wie folgt aus, wenn er den Roboter bittet, einen Apfel zu holen, nachdem er ihm das Bild gegeben hat:
Mensch: Hol mir einen Apfel.
Roboter: 1. Auf den Apfel zugehen 2. Den Apfel aufheben 3. Zum Bediener bringen 4. Den Apfel ablegen 5. Fertig.
PaLM-E kann es dem Roboter nicht nur ermöglichen, weiträumige Aufgaben auszuführen, sondern auch Planungsaufgaben durchzuführen, beispielsweise das Anordnen von Bausteinen.
Die Forscher führten erfolgreich eine mehrstufige Planung durch, die auf visuellen und verbalen Eingaben basierte und mit langfristigem visuellem Feedback kombiniert wurde, wodurch das Modell eine langfristige Aufgabe erfolgreich planen konnte, nämlich „Bausteine nach Farbe in verschiedene Kategorien zu sortieren“. . Ecke".
Wie unten gezeigt, verwandelt sich der Roboter in der Anordnung und Kombination in einen Generalisten und sortiert die Bausteine nach Farben.
Um das Modell zu verallgemeinern, kann der von PaLM-E gesteuerte Roboter den roten Baustein an die Seite der Kaffeetasse bewegen.
Erwähnenswert ist, dass der Datensatz nur drei Demos mit Kaffeetassen enthält, aber keines davon enthält rote Bausteine. Auch wenn das Modell noch nie zuvor eine Schildkröte gesehen hat, kann es die grünen Blöcke dennoch reibungslos zur Schildkröte schieben - E kann anhand von Bildern Witze erzählen und hat Fähigkeiten wie Wahrnehmung, visionsbasierten Dialog und Planung unter Beweis gestellt.
PaLM-E kann auch die Beziehung zwischen mehreren Bildern verstehen, beispielsweise wo sich Bild 1 (links) in Bild 2 (rechts) befindet.
Darüber hinaus kann PaLM-E anhand eines Bildes mit handgeschriebenen Ziffern mathematische Operationen ausführen.
Wie viel kosten zum Beispiel 2 Pizzen für das handgeschriebene Bild der Restaurantkarte unten?
sowie allgemeine Qualitätssicherung und Anmerkungs- und andere Aufgaben.
Schließlich zeigen die Forschungsergebnisse auch, dass das Einfrieren von Sprachmodellen ein gangbarer Weg zu universellen verkörperten multimodalen Modellen ist, die ihre Sprachfähigkeiten vollständig behalten.
Gleichzeitig entdeckten die Forscher aber auch einen alternativen Weg zum Auftauen des Modells, d. h. eine Vergrößerung des Sprachmodells kann das katastrophale Vergessen deutlich reduzieren.
Das obige ist der detaillierte Inhalt vonGoogle hat das größte Allzweckmodell der Geschichte veröffentlicht, PaLM-E, das über 562 Milliarden Parameter verfügt, als das leistungsstärkste Gehirn im Terminator gilt und über Bilder mit Robotern interagieren kann.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!