Luma首席科学家宋嘉明谈图像视频模型的历史和多模态模型的未来-网络3.0-PHP中文网

首页

网络3.0

Luma首席科学家宋嘉明谈图像视频模型的历史和多模态模型的未来

王林

Jul 18, 2024 am 09:42 AM

在本期 AI + a16z 播客中，Luma 首席科学家宋嘉明与 a16z 普通合伙人 Anjney Midha 一起讨论嘉明在视频模型领域的令人尊敬的职业生涯

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

本期 AI + a16z 播客由 Luma 首席科学家宋嘉明主持与 a16z 普通合伙人 Anjney Midha 谈论家明在视频模型领域令人印象深刻的职业生涯，最终发布了 Luma 的 Dream Machine 3D 视频模型，展示了其跨多个维度推理世界的能力。家明讨论了图像和视频模型的演变、他对多模态模型未来的愿景，以及他对 Dream Machine 展示紧急推理能力的推理。根据 Jiaming 的说法，该模型是在大量高质量视频数据上进行训练的，如果根据语言数据来衡量，这些数据将达到数百万亿个代币。

这是他们讨论的一个片段，其中 Jiaming 解释了“ “惨痛的教训”在训练生成模型的背景下，并在此过程中总结了为什么 Dream Machine 可以通过使用上下文丰富的视频数据来完成它所做的事情的一个关键组成部分：

“对于许多与人工智能相关的问题，从长远来看，使用更简单的方法但更多的计算通常会更有效率，[而不是]尝试开发先验，然后尝试利用先验，以便可以使用更少的计算。

“这个问题中的案例首先发生在语言，人们最初致力于语言理解，尝试使用语法或语义解析等技术。但最终这些任务开始被大型语言模型取代。类似的情况也发生在视觉领域。。。现在人们已经在几乎所有任务中使用深度学习功能。这清楚地证明了如何使用更多的计算和更少的先验是好的。

“但是它如何与语言一起工作呢？语言本身也是人类的构造。当然，这是一种非常好的、高度压缩的知识，但它绝对比人类每天从现实世界中获取的数据要少得多。。 .

“[并且]它的数据集大小比视觉信号小得多。我们已经快用尽了。。。我们在世界上拥有的高质量语言资源。人类产生语言的速度绝对不足以跟上缩放定律的要求。因此，即使我们有一个可以为此扩展计算基础设施的世界，我们实际上也没有扩展数据工作的基础设施。。 .

“尽管人们会认为大型语言模型的出现已经是缩放定律的证据。。。与语言理解中基于规则的方法相反，我们认为，面对物理世界中发生的更多更丰富的数据信号，语言本身也是先验的。”

以上是Luma首席科学家宋嘉明谈图像视频模型的历史和多模态模型的未来的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn