Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷
去年12月,CMU和普林斯頓的2位研究者發布了Mamba架構,瞬間引起AI社群震動!
結果,這篇被眾人看好有望「顛覆Transformer霸權」的論文,今天竟曝出疑似被頂會拒收? !
今早,康乃爾大學副教授Sasha Rush先發現,這篇有望成為奠基之作的論文似乎要被ICLR 2024拒之門外。
並表示,「說實話,我不理解。如果它被拒絕了,我們還有什麼機會」。
在OpenReview上可以看到,四位審查者給的分數是3、6、8、8。
雖然這個分數可能不會讓論文被拒收,但是3分這樣的低分,也是很離譜了。
牛文得3分,LeCun都出來喊冤
這篇由CMU、普林斯頓大學的2位研究人員發表的論文,提出了一種全新的架構Mamba。
這種SSM架構在語言建模上與Transformers不相上下,而且還能線性擴展,同時具有5倍的推理吞吐量!
論文網址:https://arxiv.org/pdf/2312.00752.pdf
當時論文一出,直接炸翻了AI社區,許多人紛紛表示推翻Transformer的架構終於誕生了。
而現在,Mamba論文有被拒絕可能性,讓許多人無法理解。
就連圖靈巨頭LeCun也下場參與了這波討論,表示遭遇過類似的「冤屈」。
「想當年,我被引數最多,僅在Arxiv提交的論文被引超過了1880次的論文,從未被接收」。
LeCun正是以使用卷積神經網路(CNN)在光學字元辨識和電腦視覺方面的工作而聞名的,也因此在2019年獲得了圖靈獎。
不過他的這篇發表於2015年的《基於圖結構資料的深度卷積網路》的論文,卻從未被頂會接收。
論文網址:https://arxiv.org/pdf/1506.05163.pdf
深度學習AI研究員Sebastian Raschka稱,儘管如此,Mamba在AI社群中帶來了深刻的影響。
最近一大波研究,都是基於Mamba架構衍生出來的,像是MoE-Mamba、Vision Mamba。
有趣的是,爆料Mamba被打低分的Sasha Rush,也在今天發表了一篇基於這樣研究的新論文— MambaByte。
#事實上,Mamba架構已經有了「星星之火可以燎原」的架勢,在學術圈的影響力越來越廣。
有網友表示,Mamba論文將開始佔領arXiv。
「舉個例子,我剛剛看到這篇論文提出了MambaByte,一種無token的選擇性狀態空間模型。基本上,它調整了Mamba SSM,直接從原始token中學習。」
Mamba論文的Tri Dao今天也轉發了這篇研究。
如此大火的論文卻被打出低分,有人表示,看來同儕審查是真不關注行銷的聲音有多大啊。
Mamba論文被打3分的理由
給Mamba論文低分的原因究竟是什麼呢?
可以看到給打3分的審稿人,置信度還是5,表示自己對這個評分也是非常肯定。
在review中,他提出的問題分為兩個部分:一是對模型設計的質疑,另一個是對實驗提出疑問。
模型設計
#- Mamba的設計動機是解決循環模型的缺點,同時提高基於Transformer模型的效率。有許多研究都是沿著這個方向進行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及許多高效率的Transformer 模型(如[5])。這些模型都達到了接近線性的複雜度,作者需要在模型性能和效率方面將Mamba與這些作品進行比較。關於模型效能,一些簡單的實驗(如在Wikitext-103上進行語言建模)就足夠了。
- 許多基於注意力的Transformer模型都展現出長度泛化的能力,即模型可以在較短的序列長度上進行訓練,然後在較長的序列長度上進行測試。一些例子包括相對位置編碼(T5)和 Alibi [6]。由於SSM一般都是連續的,那麼Mamba是否具有這種長度泛化能力呢?
#實驗
#- 筆者需要與更強的基準進行比較。作者承認H3被用來作為模型架構的動機。然而,他們並沒有在實驗中與H3進行比較。從 [7] 的表4可以看出,在Pile資料集上,H3的ppl分別為8.8(125M)、7.1(355M)和 6.0(1.3B),大大優於 Mamba。作者需要展示與H3的比較。
- 對於預訓練模型,作者只展示了零樣本推理的結果。這種設定相當有限,結果無法很好地證明Mamba的有效性。我建議作者進行更多的長序列實驗,例如文件摘要,在這種情況下,輸入序列自然會很長(例如,arXiv資料集的平均序列長度大於8k)。
- 作者聲稱其主要貢獻之一是長序列建模。作者應該在LRA(Long Range Arena)上與更多基準進行比較,這基本上是長序列理解的標準基準。
- 缺少記憶體基準。儘管第4.5節的標題是“速度和內存基準”,但只介紹了速度比較。此外,作者應提供圖8左側更詳細的設置,如模型層、模型大小、卷積細節等。作者能否提供一些直覺的解釋,說明為什麼當序列長度非常大時FlashAttention的速度最慢(圖8左)?
對於審查者的質疑,作者也是回去做了功課,拿出了一些實驗數據去rebuttal。
例如,針對模型設計第一點疑問,作者表示團隊有意將重點放在大規模預訓練的複雜性上,而不是小規模基準上。
儘管如此,Mamba在WikiText-103上的表現還是大大優於所有建議的模型和更多模型,這也是我們在語言方面的一般結果所能預料到的。
首先,我們在與Hyena論文 [Poli, 表 4.3] 完全相同的環境下對Mamba進行了比較。除了他們報告的數據外,我們還調整了自己的強Transformer基線。
然後,我們將模型換成Mamba,它比我們的Transformer提高了1.7 ppl,比原始基線Transformer提高了2.3 ppl。
針對「缺少記憶體基準」這一點,作者表示:
與大多數深度序列模型(包括FlashAttention)一樣,記憶體使用量只是啟動張量的大小。事實上,Mamba的記憶體效率非常高;我們還額外測量了125M模型在一張A100 80GB GPU上的訓練記憶體需求。每個批次由長度為2048的序列組成。我們將其與我們所知的記憶體效率最高的Transformer實作(使用torch.compile的核心融合和FlashAttention-2)進行了比較。
更多rebuttal細節,請查看https://openreview.net/forum?id=AL1fq05o7H
#總的看下來,審稿人的意見,作者都已解決,然而這些rebuttal卻被審稿人全部忽略了。
有人從這位審查者的意見中找出了「華點」:或許他根本不懂什麼是rnn?
全程圍觀網友表示,整個過程讀起來太令人痛心了,論文作者給出瞭如此徹底的回應,但審稿人絲毫沒有動搖,不再重新評估。
打出一個置信度為5的3分,還不理會作者有理有據的rebuttal,這種審查者也太煩人了吧。
而其他三位審稿人,則給了6、8、8這樣的高分。
打出6分的審查員指出,weakness是「該模型在訓練期間仍然像Transformer一樣需要二次記憶體」。
打出8分的審查者表示,文章的weakness只是「缺乏對一些相關著作的引用」。
另一位給8分的審查者對論文大加讚賞,並表示「實證部分非常透徹,結果很強」。
甚至沒有發現任何Weakness。
分歧如此大的分型,應該有一個解釋的。但目前還未有meta-reviewer評論。
網友大呼:學術界也衰退了!
在留言區,有人發出了靈魂拷問,究竟是誰打出了3這樣的低分? ?
顯然,這篇論文用很低的參數獲得了更好的結果,GitHub程式碼也很清晰,每個人都可以測試,因此已經贏得了坊間公認的讚譽,所以大家才覺得離譜。
有人乾脆大呼WTF,即使Mamba架構不能改變LLM的格局,它也是一個在長序列上有多種用途的可靠模型。竟然得到這個分數,是不是代表如今的學術界已經衰退了?
大家紛紛感慨道,好在這只是四條評論中的一個,其他審稿人給出的都是高分,目前最終決定尚未做出。
有人猜測,可能是審查者太累了,失去了判斷力。
另外還有一種原因,就是State Space模型這樣的全新研究方向,或許會威脅到某些在Transformer領域很有建樹的審稿人專家,情況很複雜。
有人說,Mamba論文獲得3分,簡直就是業界的笑話。
他們如此專注於瘋狂比較細顆粒度基準,但其實論文真正有趣的部分,是工程和效率。研究正在消亡,因為我們只關心SOTA,儘管它是在該領域極其狹窄子集的過時基準上。
「理論不夠,工程太多。」
##################################################### #目前,這樁「謎」還未水落石出,全體AI社群都在等一個結果。 ######
以上是Transformer的開創性作品被反對,ICLR評審引發質疑!公眾指責暗箱操作,LeCun透露類似經歷的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

SonyInteractiveEntertainment(SIE,索尼互动娱乐)首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节,包括性能升级的AMDRDNA2.x架构GPU,以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。GPU採用客制化的AMDRDNA2架构,索尼将其命名为RDNA2.x,它拥有部分RDNA3架构才

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

在CentOS上對Zookeeper進行性能調優,可以從多個方面入手,包括硬件配置、操作系統優化、配置參數調整以及監控與維護等。以下是一些具體的調優方法:硬件配置建議使用SSD硬盤:由於Zookeeper的數據寫入磁盤,強烈建議使用SSD以提高I/O性能。足夠的內存:為Zookeeper分配足夠的內存資源,避免頻繁的磁盤讀寫。多核CPU:使用多核CPU,確保Zookeeper可以並行處理請

在Debian系統上配置郵件服務器的虛擬主機通常涉及安裝和配置郵件服務器軟件(如Postfix、Exim等),而不是ApacheHTTPServer,因為Apache主要用於Web服務器功能。以下是配置郵件服務器虛擬主機的基本步驟:安裝Postfix郵件服務器更新系統軟件包:sudoaptupdatesudoaptupgrade安裝Postfix:sudoapt

微軟針對Windows搜索功能的改進,目前已在歐盟地區部分WindowsInsider頻道展開測試。此前,整合後的Windows搜索功能飽受用戶詬病,體驗欠佳。此次更新將搜索功能拆分為本地搜索和基於Bing的網絡搜索兩部分,以提升用戶體驗。新版搜索界面默認進行本地文件搜索,如需進行網絡搜索,需點擊“MicrosoftBingWebSearch”標籤進行切換。切換後,搜索欄將顯示“MicrosoftBingWebSearch:”,用戶可在此輸入關鍵詞。此舉有效避免了本地搜索結果與Bing搜索結果混
