Luma首席科学家宋嘉明谈图像视频模型的历史和多模态模型的未来
在本期 AI + a16z 播客中,Luma 首席科学家宋嘉明与 a16z 普通合伙人 Anjney Midha 一起讨论嘉明在视频模型领域的令人尊敬的职业生涯
本期 AI + a16z 播客由 Luma 首席科学家宋嘉明主持与 a16z 普通合伙人 Anjney Midha 谈论家明在视频模型领域令人印象深刻的职业生涯,最终发布了 Luma 的 Dream Machine 3D 视频模型,展示了其跨多个维度推理世界的能力。家明讨论了图像和视频模型的演变、他对多模态模型未来的愿景,以及他对 Dream Machine 展示紧急推理能力的推理。根据 Jiaming 的说法,该模型是在大量高质量视频数据上进行训练的,如果根据语言数据来衡量,这些数据将达到数百万亿个代币。
这是他们讨论的一个片段,其中 Jiaming 解释了“ “惨痛的教训”在训练生成模型的背景下,并在此过程中总结了为什么 Dream Machine 可以通过使用上下文丰富的视频数据来完成它所做的事情的一个关键组成部分:
“对于许多与人工智能相关的问题,从长远来看,使用更简单的方法但更多的计算通常会更有效率,[而不是]尝试开发先验,然后尝试利用先验,以便可以使用更少的计算。
“这个问题中的案例首先发生在语言,人们最初致力于语言理解,尝试使用语法或语义解析等技术。但最终这些任务开始被大型语言模型取代。类似的情况也发生在视觉领域。 。 。现在人们已经在几乎所有任务中使用深度学习功能。这清楚地证明了如何使用更多的计算和更少的先验是好的。
“但是它如何与语言一起工作呢?语言本身也是人类的构造。当然,这是一种非常好的、高度压缩的知识,但它绝对比人类每天从现实世界中获取的数据要少得多。 。 .
“[并且]它的数据集大小比视觉信号小得多。我们已经快用尽了。 。 。我们在世界上拥有的高质量语言资源。人类产生语言的速度绝对不足以跟上缩放定律的要求。因此,即使我们有一个可以为此扩展计算基础设施的世界,我们实际上也没有扩展数据工作的基础设施。 。 .
“尽管人们会认为大型语言模型的出现已经是缩放定律的证据。 。 。与语言理解中基于规则的方法相反,我们认为,面对物理世界中发生的更多更丰富的数据信号,语言本身也是先验的。”
以上是Luma首席科学家宋嘉明谈图像视频模型的历史和多模态模型的未来的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在今天早些时候的公告中,日本公司Metaplanet透露已收购了另外319个比特币(BTC),将其总公司持有量推高了4,500 BTC。

领先的数字资产经理Bitwise已宣布在伦敦证券交易所(LSE)上列出了其四个加密交易所交易产品(ETP)。

随着Binance Coin(BNB)的增长趋势

NT Labs和运动网络基金会启动独立调查,以进行代币营销违规行为

在过去的24小时内,最大的加密货币增长了1.6%,现在的交易价格不到85,000美元。以太(ETH),同时,增长了2.7%
![一波资本从以太坊(ETH)流出,进入TRON [TRX]](https://img.php.cn/upload/article/001/246/273/174477326297054.jpg?x-oss-process=image/resize,m_fill,h_207,w_330)
有15.2亿美元的Stablecoins迁移到TRON,投资者似乎赞成低成本的连锁店和超出传统美元支持资产的多元化。

截至发稿时,PI于4月12日与ChainLink集成后,交易价格为0.6711美元。该公告导致PI价格上涨