Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历-人工智能-PHP中文网

首页

科技周边

人工智能

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

PHPz

Jan 26, 2024 pm 02:57 PM

ai 数据

去年12月，CMU和普林斯顿的2位研究者发布了Mamba架构，瞬间引起AI社区震动！

结果，这篇被众人看好有望「颠覆Transformer霸权」的论文，今天竟曝出疑似被顶会拒收？！

今早，康奈尔大学副教授Sasha Rush最先发现，这篇有望成为奠基之作的论文似乎要被ICLR 2024拒之门外。

并表示，「说实话，我不理解。如果它被拒绝了，我们还有什么机会」。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

在OpenReview上可以看到，四位审稿人给出的分数是3、6、8、8。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

虽然这个分数未必会让论文被拒收，但是3分这样的低分，也是很离谱了。

牛文得3分，LeCun都出来喊冤

这篇由CMU、普林斯顿大学的2位研究人员发表的论文，提出了一种全新的架构Mamba。

这种SSM架构在语言建模上与Transformers不相上下，而且还能线性扩展，同时具有5倍的推理吞吐量！

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

论文地址：https://arxiv.org/pdf/2312.00752.pdf

当时论文一出，直接炸翻了AI社区，许多人纷纷表示推翻Transformer的架构终于诞生了。

而现在，Mamba论文有被拒可能性，让许多人无法理解。

就连图灵巨头LeCun也下场参与了这波讨论，表示遭遇过类似的「冤屈」。

「想当年，我被引数最多，仅在Arxiv提交的论文被引超过了1880次的论文，从未被接收」。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

LeCun正是以使用卷积神经网络（CNN）在光学字符识别和计算机视觉方面的工作而闻名的，也因此在2019年获得了图灵奖。

不过他的这篇发表于2015年的《基于图结构数据的深度卷积网络》的论文，却从未被顶会接收。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

论文地址：https://arxiv.org/pdf/1506.05163.pdf

深度学习AI研究员Sebastian Raschka称，尽管如此，Mamba在AI社区带来了深刻的影响。

近来一大波研究，都是基于Mamba架构衍生出来的，比如MoE-Mamba、Vision Mamba。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

有趣的是，爆料Mamba被打低分的Sasha Rush，也在今天发表了一篇基于这样研究的新论文——MambaByte。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

事实上，Mamba架构已经有了「星星之火可以燎原」的架势，在学术圈的影响力越来越广。

有网友表示，Mamba论文将开始占领arXiv。

「举个例子，我刚看到这篇论文提出了MambaByte，一种无token的选择性状态空间模型。基本上，它调整了Mamba SSM，直接从原始token中学习。」

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

Mamba论文的Tri Dao今天也转发了这篇研究。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

如此大火的论文却被打出低分，有人表示，看来同行评审是真不关注营销的声音有多大啊。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

Mamba论文被打3分的理由

给Mamba论文打低分的原因究竟是什么呢？

可以看到给打3分的审稿人，置信度还是5，说明自己对这个评分也是非常肯定。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

在review中，他提出的问题分为两个部分：一是对模型设计的质疑，另一个是对实验提出疑问。

模型设计

- Mamba的设计动机是解决循环模型的缺点，同时提高基于Transformer模型的效率。有很多研究都是沿着这个方向进行的：S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]，以及许多高效的Transformer 模型（如[5]）。这些模型都达到了接近线性的复杂度，作者需要在模型性能和效率方面将Mamba与这些作品进行比较。关于模型性能，一些简单的实验（如在Wikitext-103上进行语言建模）就足够了。

- 许多基于注意力的Transformer模型都展现出长度泛化的能力，即模型可以在较短的序列长度上进行训练，然后在较长的序列长度上进行测试。一些例子包括相对位置编码（T5）和 Alibi [6]。由于SSM一般都是连续的，那么Mamba是否具有这种长度泛化能力呢？

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

实验

- 作者需要与更强的基线进行比较。作者承认H3被用作模型架构的动机。然而，他们并没有在实验中与H3进行比较。从 [7] 的表4中可以看出，在Pile数据集上，H3的ppl分别为8.8（125M）、7.1（355M）和 6.0（1.3B），大大优于 Mamba。作者需要展示与H3的比较。

- 对于预训练模型，作者只展示了零样本推理的结果。这种设置相当有限，结果不能很好地证明Mamba的有效性。我建议作者进行更多的长序列实验，比如文档摘要，在这种情况下，输入序列自然会很长（例如，arXiv数据集的平均序列长度大于8k）。

- 作者声称其主要贡献之一是长序列建模。作者应该在LRA（Long Range Arena）上与更多基线进行比较，这基本上是长序列理解的标准基准。

- 缺少内存基准。尽管第4.5节的标题是「速度和内存基准」，但只介绍了速度比较。此外，作者应提供图8左侧更详细的设置，如模型层、模型大小、卷积细节等。作者能否提供一些直观的解释，说明为什么当序列长度非常大时FlashAttention的速度最慢（图8左）？

对于审稿人的质疑，作者也是回去做了功课，拿出了一些实验数据去rebuttal。

比如，针对模型设计第一点疑问，作者表示团队有意将重点放在大规模预训练的复杂性上，而不是小规模基准上。

尽管如此，Mamba在WikiText-103上的表现还是大大优于所有建议的模型和更多模型，这也是我们在语言方面的一般结果所能预料到的。

首先，我们在与Hyena论文 [Poli, 表 4.3] 完全相同的环境下对Mamba进行了比较。除了他们报告的数据外，我们还调整了自己的强Transformer基线。

然后，我们将模型换成Mamba，它比我们的Transformer提高了1.7 ppl，比原始基线Transformer提高了2.3 ppl。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

针对「缺少内存基准」这一点，作者表示：

与大多数深度序列模型（包括FlashAttention）一样，内存使用量只是激活张量的大小。事实上，Mamba的内存效率非常高；我们还额外测量了125M模型在一张A100 80GB GPU上的训练内存需求。每个批由长度为2048的序列组成。我们将其与我们所知的内存效率最高的Transformer实现（使用torch.compile的内核融合和FlashAttention-2）进行了比较。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

更多rebuttal细节，请查看https://openreview.net/forum?id=AL1fq05o7H

总的看下来，审稿人的意见，作者都已解决，然而这些rebuttal却被审稿人全部忽略了。

有人从这位审稿人的意见中找出了「华点」：或许他根本不懂什么是rnn？

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

全程围观网友表示，整个过程读起来太令人痛心了，论文作者给出了如此彻底的回应，但审稿人丝毫没有动摇，不再重新评估。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

打出一个置信度为5的3分，还不理会作者有理有据的rebuttal，这种审稿人也太烦人了吧。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

而其他三位审稿人，则给出了6、8、8这样的高分。

打6分的审稿人指出，weakness是「该模型在训练期间仍然像Transformer一样需要二次内存」。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

打出8分的审稿人表示，文章的weakness只是「缺乏对一些相关著作的引用」。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

另一位给8分的审稿人对论文大加赞赏，称「实证部分非常透彻，结果很强」。

甚至没发现任何Weakness。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

分歧如此大的分型，应该有一个解释的。但目前还未有meta-reviewer评论。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

网友大呼：学术界也衰落了！

在评论区，有人发出了灵魂拷问，究竟是谁打出了3这样的低分？？

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

显然，这篇论文用很低的参数获得了更好的结果，并且GitHub代码也很清晰，每个人都可以测试，因此已经赢得了坊间公认的赞誉，所以大家才都觉得离谱。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

有人干脆大呼WTF，即使Mamba架构不能改变LLM的格局，它也是一个在长序列上有多种用途的可靠模型。竟然得到这个分数，是不是意味着如今的学术界已经衰落了？

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

大家纷纷感慨道，好在这只是四条评论中的一个，其他审稿人给出的都是高分，目前最终决定尚未做出。

有人猜测，可能是审稿人太累了，失去了判断力。

另外还有一种原因，就是State Space模型这样的全新研究方向，或许会威胁到某些在Transformer领域很有建树的审稿人专家，情况很复杂。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

有人说，Mamba论文获得3分，简直就是业界的笑话。

他们如此专注于疯狂比较细颗粒度基准，但其实论文真正有趣的部分，是工程和效率。研究正在消亡，因为我们只关心SOTA，尽管它是在该领域极其狭窄子集的过时基准上。

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

「理论不够，工程太多。」

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

目前，这桩「谜案」还未水落石出，全体AI社区都在等一个结果。

以上是Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7738

Java教程

1643

CakePHP 教程

1397

Laravel 教程

1290

PHP教程

1233

显示更多

Related knowledge

WorldCoin（WLD）价格预测2025-2031：到2031年WLD会达到4美元吗？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。 WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思？跨链交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，这些平台通过各种技术支持多链资产交易。

虚拟币价格上涨或者下降是为什么虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括：1.市场需求增加，2.供应量减少，3.利好消息刺激，4.市场情绪乐观，5.宏观经济环境；下降因素包括：1.市场需求减少，2.供应量增加，3.利空消息打击，4.市场情绪悲观，5.宏观经济环境。

如何在币安拿下 KERNEL 空投奖励全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里，新机遇总是不断涌现。当下，KernelDAO (KERNEL) 空投活动正备受瞩目，吸引着众多投资者的目光。那么，这个项目究竟是什么来头？BNB Holder 又能从中获得怎样的好处？别急，下面将为你一一揭晓。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议，已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议，已为AAVEDAO实现了一个法定人数。AAVE连锁计划（ACI）创始人马克·泽勒（MarcZeller）在X上宣布了这一点，并指出它标志着该协议的新时代。AAVE连锁倡议（ACI）创始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE协议令牌和引入令牌回购，已为AAVEDAO实现了法定人数。根据Zeller的说法，这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议，即在周三以每周100

混合型区块链交易平台有哪些 Apr 21, 2025 pm 11:36 PM

选择加密货币交易所的建议：1. 流动性需求，优先选择币安、Gate.io或OKX，因其订单深度与抗波动能力强。2. 合规与安全，Coinbase、Kraken、Gemini具备严格监管背书。3. 创新功能，KuCoin的软质押和Bybit的衍生品设计适合进阶用户。

币圈行情实时数据免费平台推荐前十名发布 Apr 22, 2025 am 08:12 AM

适合新手的加密货币数据平台有CoinMarketCap和非小号。1. CoinMarketCap提供全球加密货币实时价格、市值、交易量排名，适合新手与基础分析需求。2. 非小号提供中文友好界面，适合中文用户快速筛选低风险潜力项目。

Rexas Finance（RXS）可以在2025年超过Solana（Sol），Cardano（ADA），XRP和Dogecoin（Doge） Apr 21, 2025 pm 02:30 PM

在波动剧烈的加密货币市场中，投资者正寻求超越热门币种的替代方案。Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密货币，尽管占据着一定的市场地位，但也面临着市场情绪、监管不确定性和可扩展性等挑战。然而，一个新兴项目RexasFinance(RXS)正在崭露头角。它并非依靠名人效应或炒作，而是专注于将现实世界资产(RWA)与区块链技术结合，为投资者提供一种创新的投资方式。这一策略使其有望成为2025年最成功的项目之一。RexasFi

See all articles

Transformer的开创性作品被反对，ICLR评审引发质疑！公众指责暗箱操作，LeCun透露类似经历

牛文得3分，LeCun都出来喊冤

Mamba论文被打3分的理由

网友大呼：学术界也衰落了！

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题