Ilya離職後第一個動作:按讚了這篇論文,網友搶著傳看
自Ilya Sutskever官宣離職OpenAI後,他的下一步動作成了大家關注焦點。
甚至有人密切注意著他的一舉一動。
這不,Ilya前腳剛剛點讚❤️了一篇新論文——
-網友們後腳就搶著都看上了:
#論文來自MIT,作者提出了一個假說,用一句話總結是這樣嬸兒的:
神經網路在不同的資料和模態上以不同目標進行訓練,正趨向於在其表示空間中形成一個共享的現實世界統計模型。
他們將這種推測起名為柏拉圖表示假說,參考了柏拉圖的洞穴寓言以及其關於理想現實本質的觀念。
Ilya甄選還是有保障的,有網友看過後稱之為是今年看到的最好的論文:
還有網友真的有才,看完後化用《安娜·卡列尼娜》開篇的一句話來總結:所有幸福的語言模型都是相似的,每個不幸的語言模型都有自己的不幸。
化用懷特海名言:所有機器學習都是柏拉圖的註腳。
俺們也來看了一下,大概內容是:
#作者分析了AI系統的表徵收斂
# (Representational Convergence),即不同神經網路模型中的資料點表徵方式正變得越來越相似,這種相似性跨不同的模型架構、訓練目標甚至資料模態。 是什麼推動了這種收斂?這種趨勢會持續下去嗎?它的最終歸宿在哪裡?
經過一系列分析和實驗,研究人員推測這種收斂確實有一個終點,並且有一個驅動原則:不同模型都在努力達到對現實的準確表徵
。一張圖來解釋:
(X)和文字(Y)
是共同底層現實###(Z)###的不同投影。研究人員推測,表徵學習演算法將收斂到對Z的統一表徵上,而模型規模的增加、數據和任務的多樣性是推動這種收斂的關鍵因素。 ######只能說,不愧是Ilya感興趣的問題,太深奧了,俺們也不太懂,下面請AI幫忙解讀了一下給大家分享~########## #####表格被收斂的證據######首先,作者分析了大量先前的相關研究,同時也自己上手做了實驗,拿出了一系列表格和收斂的證據,展示了不同模型的收斂、規模與性能、跨模態的收斂。 #########Ps:本研究重點關注向量嵌入表徵,即資料被轉化成向量形式,透過核函數描述資料點之間的相似性或距離。文中「表徵對齊」概念,即如果兩種不同的表徵方法揭示了類似的資料結構,那麼這兩種表徵被視為是對齊的。 ######1、不同模型的收斂,不同架構和目標的模型在底層表示上趨於一致。
目前基於預訓練基礎模型所建構的系統數量逐漸增加,一些模型正成為多任務的標準核心架構。這種在多種應用上的廣泛適用性體現了它們在資料表徵方式上具有一定通用性。
雖然這個趨勢顯示AI系統正朝著一組較小的基礎模型集合收斂,但並不能證明不同的基礎模型會形成相同的表徵。
不過,最近一些與模型拼接(model stitching)相關的研究發現,即使在不同資料集上訓練,影像分類模型的中間層表徵也可以很好地對齊。
例如有研究發現,在ImageNet和Places365資料集上訓練的捲積網路的早期層可以互換,表明它們學習到了相似的初始視覺表徵。也發現了大量「羅塞塔神經元」(Rosetta Neurons),即在不同視覺模型中被活化的模式高度相似的神經元…
# 2.模型規模和性能越大,表徵對齊程度越高。
研究人員在Places-365資料集上使用相互最近鄰方法衡量了78個模型的對齊情況,並評估了它們在視覺任務適應基準VTAB的下游任務表現。
結果發現,泛化能力較強的模型群集之間的表徵對齊度明顯較高。
之前還有研究觀察到,較大模型之間的CKA內核對齊度較高。在理論上也有研究證明了輸出表現相似的模型內部活化也必然相似。
3、不同模態的模型表被收斂。
研究人員在維基百科影像資料集WIT上使用相互最近鄰方法來測量對齊度。
結果揭示了語言-視覺對齊度與語言建模分數之間存在線性關係,一般趨勢是能力更強的語言模型與能力更強的視覺模型對齊得更好。
4、模型與大腦表徵也顯示出一定程度的一致性,可能由於面臨相似的數據和任務限制。
2014年就有研究發現,神經網路的中間層活化與大腦視覺區的活化模式高度相關,可能是由於面臨相似的視覺任務和資料約束。
此後有研究進一步發現,使用不同訓練資料會影響大腦和模型表徵的對齊程度。心理學研究也發現人類感知視覺相似性的方式與神經網路模型高度一致。
5、模型表徵的對齊程度與下游任務的表現呈正相關。
研究人員使用了兩個下游任務來評估模型的表現:Hellaswag(常識推理)和GSM8K(數學)。並使用DINOv2模型作為參考,來衡量其他語言模型與視覺模型的對齊程度。
實驗結果顯示,與視覺模型對齊程度較高的語言模型在Hellaswag和GSM8K任務上的表現也較好。視覺化結果顯示,對齊程度與下游任務表現之間有明顯的正相關。
之前的研究這裡就不展開說了,有興趣的家人們可查看原始論文。
收斂的原因
接著,研究團隊透過理論分析和實驗觀察,提出了表格中收斂的潛在原因,並討論了這些因素如何共同作用,導致不同模型在表示現實世界時趨於一致。
機器學習領域,模型的訓練目標需減少在訓練資料上的預測誤差。為了防止模型過度擬合,通常會在訓練過程中加入正規化項。正則化可以是隱式,也可以是顯式。
研究人員在這部分闡述了這個最佳化過程中,下圖每個彩色部分如何可能在促進表和收斂中發揮作用。
1、任務通用性導致收斂#(Convergence via Task Generality)
隨著模型被訓練來解決更多任務,它們需要找到能夠滿足所有任務需求的表徵:
能夠勝任N個任務的表徵數量少於能夠勝任M個(M
先前也有過類似的原理被提出,圖解是這樣嬸兒的:
而且,容易的任務有多種解決方案,而困難的任務解決方案較少。因此,隨著任務難度的增加,模型的表徵趨於收斂到更優的、數量較少的解。
2、模型容量導致收斂(Convergence via Model Capacity)
研究人員指出了容量假設,如果存在一個全域最優的表徵,那麼在資料足夠的條件下,較大的模型更有可能逼近這個最優解。
因此,使用相同訓練目標的較大模型,無論其架構如何,都會趨向於此最優解的收斂。當不同的訓練目標有相似的最小值時,較大的模型更能有效地找到這些最小值,並在各訓練任務中趨於相似的解決方案。
圖解是這樣嬸兒的:
#3、簡單偏差導致收斂 (Convergence via Simplicity Bias)
關於收斂的原因,研究人員也提出了一個假設。深度網路傾向於尋找資料的簡單擬合,這種內在的簡單性偏差使得大模型在表示上趨於簡化,從而導致收斂。
也就是說,較大的模型擁有更廣泛的覆蓋範圍,能夠以所有可能的方式擬合相同的資料。然而,深度網路的隱性簡單性偏好鼓勵較大的模型找到這些解決方案中最簡單的一個。
收斂的終點
經過一系列分析與實驗,如開頭所述,研究人員提出了柏拉圖表示假說,推測了這種收斂的終點。
即不同的AI模型,儘管在不同的資料和目標上訓練,它們的表示空間正在收斂於一個共同的統計模型,這個模型代表了產生我們觀察到的資料的現實世界。
他們首先建構了一個理想化的離散事件世界模型。該世界包含一系列離散事件Z,每個事件都是從某個未知分佈P(Z)中取樣得到的。每個事件可以透過觀測函數obs以不同方式被觀測,如像素、聲音、文字等。
接下來,作者考慮了一類對比學習演算法,這類演算法試圖學習一個表徵fX,使得fX(xa)和fX(xb)的內積近似於xa和xb作為正樣本對(來自接近觀測)的對數odds與作為負樣本對(隨機取樣)的對數odds之比。
經過數學推導,作者發現如果資料夠平滑,這類演算法將收斂到一個核函數是xa和xb的點互資訊(PMI)核的表徵fX。
由於研究考慮的是一個理想化的離散世界,觀測函數obs是雙射的,因此xa和xb的PMI核等於對應事件za和zb的PMI核。
這就意味著,無論是從視覺資料X或語言資料Y中學習表徵,最終都會收斂到表示P(Z)的相同核函數,即事件對之間的PMI核。
研究者透過一個關於顏色的實證研究來驗證這個理論。無論是從圖像的像素共現統計中或從文本的詞語共現統計中學習顏色表徵,得到的顏色距離都與人類感知相似,並且隨著模型規模增大,這種相似性也越來越高。
這符合了理論分析,即更大的模型能力可以更準確地建模觀測資料的統計量,進而得到更接近理想事件表徵的PMI核。
最後的一些思考
論文最後,作者總結了表徵斂對AI領域和未來研究方向的潛在影響,以及柏拉圖式表徵假設的潛在限制和例外情況。
他們指出,隨著模型規模的增加,表示的收斂可能會帶來的影響包括但不限於:
- 雖然簡單擴大規模可以提高性能,但不同方法在擴展效率上存在差異。
- 如果存在模態無關的柏拉圖式表徵,那麼不同模態的資料應當被聯合訓練以找到這種共享表徵。這解釋了為什麼將視覺資料加入語言模型訓練是有益的,反之亦然。
- 對齊的表徵之間的轉換應相對簡單,這可能解釋了:有條件產生比無條件產生更容易、無配對資料也可實現跨模態轉換。
- 模型規模擴大可能會減少語言模型的虛構內容傾向和某些偏差,使其更準確反映訓練資料中的偏差,而不是加劇偏差。
作者強調,上述影響的前提是,未來模型的訓練資料要足夠多元且無損,才能真正收斂到反映實際世界統計規律的表徵。
同時,作者也表示,不同模態的資料可能包含獨特的訊息,可能導致即使在模型規模增加的情況下,也難以實現完全的表示收斂。此外,目前並非所有表徵都在收斂,例如機器人領域還沒有標準化的狀態表徵方式。研究者和社區的偏好可能導致模型向人類表徵方式收斂,從而忽略了其他可能的智慧形式。
且專門設計用於特定任務的智慧系統,可能不會與通用智慧收斂到相同的表徵。
作者也強調了測量表示對齊的方法存在爭議,不同的度量方法可能會導致不同的結論。即使不同模型的表徵相似,但仍有差距有待解釋,目前無法確定這種差距是否重要。
更多細節及論證方法,給大噶把論文放這兒了~
論文連結:https://arxiv.org/abs/2405.07987
以上是Ilya離職後第一個動作:按讚了這篇論文,網友搶著傳看的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
