Luma-Chefwissenschaftler Jiaming Song über die Geschichte von Bild- und Videomodellen und die Zukunft multimodaler Modelle-web3.0-php.cn

Luma-Chefwissenschaftler Jiaming Song über die Geschichte von Bild- und Videomodellen und die Zukunft multimodaler Modelle

王林

Freigeben： 2024-07-18 09:42:30

Original

823 Leute haben es durchsucht

In dieser Folge des AI + a16z-Podcasts diskutiert Luma-Chefwissenschaftler Jiaming Song mit Anjney Midha, General Partner von a16z, über Jiamings angesehene Karriere im Bereich Videomodels

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

In dieser Folge des AI + a16z-Podcasts ist Luma-Chefwissenschaftler Jiaming Song dabei Gespräch mit a16z General Partner Anjney Midha über Jiamings beeindruckende Karriere im Bereich der Videomodelle, die in der jüngsten Veröffentlichung von Lumas Dream Machine 3D-Videomodell gipfelte, das seine Fähigkeit demonstriert, über die Welt in mehreren Dimensionen nachzudenken. Jiaming diskutiert die Entwicklung von Bild- und Videomodellen, seine Vision für die Zukunft multimodaler Modelle und seine Argumentation hinter der Fähigkeit von Dream Machine, neue Denkfähigkeiten zu demonstrieren. Laut Jiaming wurde das Modell auf einer Menge hochwertiger Videodaten trainiert, die, gemessen an Sprachdaten, Hunderte Billionen Token ausmachen würden.

Hier ist ein Ausschnitt aus ihrer Diskussion, in der Jiaming erklärt: „ Bittere Lektion“ im Zusammenhang mit dem Training generativer Modelle und fasst dabei eine Schlüsselkomponente zusammen, warum Dream Machine mithilfe kontextreicher Videodaten das tun kann, was es kann:

„Bei vielen Problemen im Zusammenhang mit künstlicher Intelligenz Auf lange Sicht ist es oft produktiver, einfachere Methoden, aber mehr Rechenleistung zu verwenden, als zu versuchen, Priors zu entwickeln und dann zu versuchen, die Priors zu nutzen, damit Sie weniger Rechenleistung verbrauchen können.

„Fälle in dieser Frage traten erstmals auf Sprache, wo die Leute zunächst am Sprachverständnis arbeiteten und versuchten, Grammatik oder semantisches Parsen zu verwenden, also Techniken dieser Art. Aber irgendwann wurden diese Aufgaben durch große Sprachmodelle ersetzt. Und ein ähnlicher Fall passiert auch im Sehbereich. . . und mittlerweile nutzen die Leute Deep-Learning-Funktionen für fast alle Aufgaben. Dies ist ein klarer Beweis dafür, wie gut es ist, mehr Rechenleistung zu nutzen und weniger Prioritäten zu haben.

„Aber wie funktioniert das mit Sprache?“ Auch die Sprache selbst ist ein menschliches Konstrukt. Natürlich handelt es sich um sehr gutes und hochkomprimiertes Wissen, aber es handelt sich auf jeden Fall um viel weniger Daten als das, was Menschen tagtäglich aus der realen Welt aufnehmen. . .

„[Und] es handelt sich um eine wesentlich kleinere Datensatzgröße als bei visuellen Signalen. Und wir sind schon fast am Ende. . . qualitativ hochwertige Sprachquellen, die wir auf der Welt haben. Die Geschwindigkeit, mit der Menschen Sprache produzieren können, reicht definitiv nicht aus, um mit den Anforderungen der Skalierungsgesetze Schritt zu halten. Selbst wenn wir also eine Welt haben, in der wir die Recheninfrastruktur dafür skalieren können, verfügen wir nicht wirklich über die Infrastruktur, um den Datenaufwand zu skalieren. . .

„Auch wenn die Leute argumentieren würden, dass die Entstehung großer Sprachmodelle bereits ein Beweis für das Skalierungsgesetz ist.“ . . Im Gegensatz zu den regelbasierten Methoden des Sprachverständnisses argumentieren wir, dass die Sprache selbst auch eine Priorität angesichts der umfassenderen Datensignale ist, die in der physischen Welt auftreten.“

Das obige ist der detaillierte Inhalt vonLuma-Chefwissenschaftler Jiaming Song über die Geschichte von Bild- und Videomodellen und die Zukunft multimodaler Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!