Jiaming Song, scientifique en chef de Luma, sur l'histoire des modèles d'images et de vidéos et l'avenir des modèles multimodaux-web3.0-php.cn

Jiaming Song, scientifique en chef de Luma, sur l'histoire des modèles d'images et de vidéos et l'avenir des modèles multimodaux

王林

Libérer： 2024-07-18 09:42:30

original

896 Les gens l'ont consulté

Dans cet épisode du podcast AI + a16z, Jiaming Song, scientifique en chef de Luma, rejoint Anjney Midha, associé général d'a16z, pour discuter de la carrière estimée de Jiaming dans les modèles vidéo

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

Cet épisode du podcast AI + a16z présente Jiaming Song, scientifique en chef de Luma, dans conversation avec Anjney Midha, associée générale d'a16z, à propos de la carrière impressionnante de Jiaming dans le domaine des modèles vidéo, culminant avec la récente sortie du modèle vidéo 3D Dream Machine de Luma, qui montre sa capacité à raisonner sur le monde à travers plusieurs dimensions. Jiaming discute de l’évolution des modèles d’image et de vidéo, de sa vision de l’avenir des modèles multimodaux et de son raisonnement derrière la capacité de Dream Machine à démontrer les capacités de raisonnement émergentes. Selon Jiaming, le modèle a été formé sur un volume de données vidéo de haute qualité qui, si mesuré par rapport aux données linguistiques, équivaudrait à des centaines de milliards de jetons.

Voici un extrait de leur discussion, où Jiaming explique le " leçon amère » dans le contexte de la formation de modèles génératifs, et résume ainsi un élément clé de la raison pour laquelle Dream Machine peut faire ce qu'elle fait en utilisant des données vidéo riches en contexte :

« Pour de nombreux problèmes liés à l'intelligence artificielle, il est souvent plus productif à long terme d'utiliser des méthodes plus simples mais plus de calcul, [plutôt] que d'essayer de développer des priors, puis d'essayer d'exploiter les priors afin de pouvoir utiliser moins de calcul.

« Les cas de cette question se sont produits pour la première fois en le langage, où les gens travaillaient initialement sur la compréhension du langage, essayaient d'utiliser la grammaire ou l'analyse sémantique, ce genre de techniques. Mais finalement, ces tâches ont commencé à être remplacées par de grands modèles de langage. Et un cas similaire se produit également dans le domaine de la vision. . . et maintenant, les gens utilisent les fonctionnalités d’apprentissage en profondeur pour presque toutes les tâches. C'est une démonstration claire de la façon dont il est bon d'utiliser plus de calcul et d'avoir moins d'a priori.

« Mais comment cela fonctionne-t-il avec le langage ? La langue en elle-même est aussi une construction humaine. Bien sûr, il s’agit d’un type de connaissances très bonnes et très compressées, mais il s’agit certainement de beaucoup moins de données que ce que les humains acquièrent quotidiennement du monde réel. . .

« [Et] il s’agit d’un ensemble de données beaucoup plus petit que les signaux visuels. Et nous sommes déjà presque en train d’épuiser le . . . sources linguistiques de haute qualité dont nous disposons dans le monde. La vitesse à laquelle les humains peuvent produire du langage n’est certainement pas suffisante pour répondre aux exigences des lois d’échelle. Ainsi, même si nous disposons d’un monde dans lequel nous pouvons étendre l’infrastructure de calcul à cet effet, nous n’avons pas vraiment l’infrastructure nécessaire pour intensifier les efforts en matière de données. . .

« Même si certains diraient que l'émergence de grands modèles de langage est déjà une preuve de la loi d'échelle . . . contre les méthodes basées sur des règles dans la compréhension du langage, nous affirmons que le langage en lui-même est également un préalable face aux signaux de données plus riches qui se produisent dans le monde physique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!