Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗?
今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。
近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。
这件事的起因是Comma.ai的CTO Harald Schäfer在展示自家最新研究。他(像最近很多AI学者一样)cue了Yann LeCun表达,虽然图灵奖大佬认为纯ViT并不实用,但我们最近把自己的压缩器改成了纯ViT,没有捷积,需要更长时间的训练,但是效果非常不错。
比如左图,被压缩到了只有 224 字节,右边是原始图像。
只有 14×128,这对自动驾驶用的世界模型来说很大,意味着可以输入大量数据用于训练。在虚拟环境中训练相比真实环境成本更低,在这里 Agent 需要根据策略进行训练才能正常工作。虚拟训练更高的分辨率效果会更好,但模拟器就会变得速度很慢,因此目前压缩是必须的。
他的展示引发了 AI 圈的讨论,1X 人工智能副总裁 Eric Jang 回复道,是惊人的结果。
Harald 继续夸赞 ViT:这是非常美丽的架构。
此处有人就开始拱火了:大师如 LeCun,有时也无法赶上创新的步伐。
不过,Yann LeCun 很快回复辩驳称,他并不是说 ViT 不实用,现在大家都在使用它。他想表达的是,ViT 太慢、效率太低,导致不适合实时处理高分辨率图像和视频任务。
Yann LeCun 还 Cue 了纽约大学助理教授谢赛宁,后者参与的工作 ConvNext 证明了如果方法得当,CNN 也能和 ViT 一样好。
他接下来表示,在坚持自注意力循环之前,你至少需要几个具有池化和步幅的卷积层。
如果自注意力等同于排列(permutation),则完全对低级别图像或视频处理没有意义,在前端使用单个步幅进行修补(patchify)也没有意义。此外由于图像或视频中的相关性高度集中在局部,因而全局注意力也没有意义且不可扩展。
在更高级别上,一旦特征表征了对象,那么使用自注意力循环就有意义了:重要的是对象之间的关系和交互,而非它们的位置。这种混合架构是由 Meta 研究科学家 Nicolas Carion 及合著者完成的 DETR 系统开创的。
自 DETR 工作出现以后,Yann LeCun 表示自己最喜欢的架构是低级别的卷积 / 步幅 / 池化,以及高级别的自注意力循环。
Yann LeCun 在第二个帖子里总结到:在低级别使用带有步幅或池化的卷积,在高级别使用自注意力循环,并使用特征向量来表征对象。
他还打赌到,特斯拉全自动驾驶(FSD)在低级别使用卷积(或者更复杂的局部运算符),并在更高级别结合更多全局循环(可能使用自注意力)。因此,低级别 patch 嵌入上使用 Transformer 完全一种浪费。
我猜死对头马斯克还是用的卷积路线。
谢赛宁也发表了自己的看法,他认为 ViT 非常适合 224x224 的低分辨率图像,但如果图像分辨率达到了 100 万 x100 万,该怎么办呢?这时要么使用卷积,要么使用共享权重对 ViT 进行修补和处理,这在本质上还是卷积。
因此,谢赛宁表示,有那么一刻自己意识到卷积网络不是一种架构,而是一种思维方式。
这一观点得到了 Yann LeCun 的认可。
谷歌 DeepMind 研究者 Lucas Beyer 也表示,得益于常规卷积网络的零填充,自己很确定「卷积 ViT」(而不是 ViT + 卷积)会工作得很好。
可以预见,这场 ViT 与 CNN 之间的争论还将继续下去,直到未来另一种更强大架构的出现。
以上是Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

目录如何选择加密货币进行短期交易?短期交易最佳加密货币列表比特币雪崩索拉纳狗狗币多边形世界币Chainlink新兴企业如何选择加密货币进行短期交易?短期交易是指购买加密货币并持有一段时间,从几分钟到几天不等。这种方法前景光明,但也存在风险,耗时较长,因为你需要持续关注市场行情。但这还不是全部;在选择合适的加密货币资产时,你还应该注意以下几点:波动性:短期交易成功的主要指标之一是高挥发性加密货币的价值;价值越高,价格波动越大,从而创造更

介绍去中心化金融(DeFi)正在改变用户与区块链技术的交互方式,为交易、借贷和收益创造创造无缝灵活的途径。Solayer(LAYER)正是这一变革的核心,它构建了一个跨多条区块链连接流动性和实用性的协议。随着DeFi的普及以及对高效跨链基础设施需求的增长,Solayer正吸引着交易员、开发者和投资者的关注,他们正在寻找下一个重大机遇。本文将解释Solayer的概念,详细介绍其创新功能和代币经济学,并展望其2030年

你不需要是经济学家也能感受到经济的动荡。物价下跌,工作稳定性下降,每个人似乎都对自己的财务未来感到焦虑。什么是稳定币?稳定币就像加密世界中的救生衣:一种设计用来保持价值稳定的数字货币,通常与美元或黄金等稳定资产挂钩。与比特币或以太坊等价格波动剧烈的加密货币不同,稳定币追求稳定性。当经济风暴来袭时,投资者自然会寻求稳定,而稳定币恰好提供了这种避险资产——免受波动的影响。为什么稳定币在经济不稳定时蓬勃发展在

目录 什么是VitaInu(VINU)?什么是VINU代币?2025年VINU币价格预测VitaInu(VINU)价格预测2025-2030至2030年VitaInu(VINU)价格预测2025年VitaInu价格预测2026年VitaInu价格预测2027年VitaInu价格预测2028年VitaInu价格预测2029年VitaInu价格预测2030年VitaInu价格预测解读VINU的市场表现

在当今的数字经济中,传统金融与区块链技术之间的界限开始变得模糊。人们渴望更快的支付、无边界的交易以及对自身资金的更多掌控——而且他们渴望立即实现。ZebecNetwork是众多旨在通过构建可编程资金流基础设施来满足这一需求的项目之一。Zebec专注于实时工资单、加密支付和去中心化系统,将自己定位为连接成熟金融实践与新兴区块链解决方案的桥梁。本文概述了ZebecNetwork——它

区块链技术持续改变着人们在线上交换价值、验证信息和建立信任的方式。随着去中心化应用在各行各业的蓬勃发展,跨多个区块链确认声明和身份的能力变得越来越重要,也越来越复杂。传统的、依赖于中心化权威的信任模型往往不足以支撑去中心化的生态系统,因此对区块链原生验证解决方案的需求也日益增长。SignProtocol(SIGN)通过提供一个用于跨多个区块链网络创建、验证和管理证明的框架来应对这一挑战。SignProtocol旨在打造一个全链

Solana链上两大Meme币——MooDeng(MOODENG)、GoatseusMaximus(GOAT)昨(11)日登陆币安「Alpha」平台后迅速翻红,重燃投资人热情,其中MOODENG币价单日狂飙逾123%,一举刷新今年以来新高。币安Alpha主要聚焦于早期潜力币种,通常会上架社群热度高、有成长潜力的币种,如今正式上线MOODENG、GOAT,不仅为这两款Meme币注入资金活水,更让Solana生态再

加密货币市场项目随着区块链发展而不断涌现,目的就是改变传统金融实践,SwissCheese就是其中一个项目。据了解,SwissCheese是一个让用户能够交易通证化股票的去中心化平台,旨在增强市场的可及性并降低交易成本,为更具包容性的金融环境铺平道路。平台的原生代币为SWCH,主要作用就是交易、治理等。该项目上线后立即引起了投资者的关注,但仅仅了解SWCH是什么币种?还不能分析出SWCH值得投资吗?结合当前数据来看,SWCH具有一定的
