NeurIPS23|「讀腦」解碼大腦活動重建視覺世界
在這篇NeurIPS23 論文中,來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視覺「讀腦術」,能夠從人類的大腦活動中以高解析度解析出人眼觀看的影像。
在認知神經科學領域,人們意識到人類的感知不僅受到客觀刺激的影響,也深受過去經驗的影響。這些因素共同作用,形成了大腦中複雜的活動。因此,解碼大腦活動中的視覺訊息成為了一項重要的任務。其中,功能性磁振造影(fMRI)作為一種高效的非侵入性技術,在恢復和分析視覺訊息,尤其是影像類別方面發揮關鍵的作用
然而,由於fMRI 訊號的噪聲特性和大腦視覺表徵的複雜性,這項任務面臨著不小的挑戰。針對這個問題,本文提出了一個雙階段fMRI 表徵學習框架,旨在識別並去除大腦活動中的噪聲,並專注於解析對視覺重建至關重要的神經激活模式,成功從大腦活動中重建出高解析度且語意上準確的影像。
論文連結:https://arxiv.org/abs/2305.17214
專案連結:https://github.com/soinx0629/vis_dec_neurips/
論文中提出的方法是基於雙重對比學習、跨模態資訊交叉及擴散模型,在相關fMRI 資料集上取得了相對於以往最好模型接近40% 的評測指標提升,在生成影像的品質、可讀性及語意相關性相對於已有方法均有肉眼可感知的提升。此工作有助於理解人腦的視覺感知機制,有益於推動視覺的腦機介面技術的研究。相關程式碼均已開源。
功能性磁振造影(fMRI)雖廣泛用於解析神經反應,但從其數據中準確重建視覺圖像仍具挑戰,主要因為fMRI 數據包含多種來源的噪聲,這些噪聲可能掩蓋神經激活模式,增加解碼難度。此外,視覺刺激引發的神經反應過程複雜多階段,使得 fMRI 訊號呈現非線性的複雜疊加,難以逆轉並解碼。
傳統的神經解碼方式,例如嶺回歸,儘管被用於將 fMRI 訊號與相應刺激關聯,卻常常無法有效捕捉刺激和神經反應之間的非線性關係。近期,深度學習技術,如生成對抗網路(GAN)和潛在擴散模型(LDMs),已被採用以更準確地建模這種複雜關係。然而,將視覺相關的大腦活動從噪音中分離出來,並準確進行解碼,仍然是該領域的主要挑戰之一。
為了應對這些挑戰,該工作提出了一個雙階段fMRI 表徵學習框架,該方法能夠有效識別並去除大腦活動中的噪聲,並專注於解析對視覺重建至關重要的神經激活模式。此方法在產生高解析度及語意準確的影像方面,其 50 分類的 Top-1 準確率超過現有最先進技術 39.34%。
方法概述即為一系列步驟或流程的簡要描述。它用於解釋如何達到特定目標或完成特定任務。方法概述的目的是提供讀者或使用者一個對整個過程的整體了解,以便他們能夠更好地理解和跟隨其中的步驟。在方法概述中,通常包括步驟的順序、所需的材料或工具以及可能遇到的問題或挑戰。透過清晰明了地描述方法概述,讀者或使用者能夠更容易地理解並成功地完成所需的任務
#fMRI 表徵學習(FRL)
第一階段:預訓練雙重對比遮罩自動編碼器(DC-MAE)
為了在不同人群中區分共有的大腦活動模式和個體噪聲,本文引入了 DC-MAE 技術,利用未標記資料對 fMRI 表徵進行預訓練。 DC-MAE 包含一個編碼器和一個解碼器
,其中
以遮蔽的 fMRI 訊號為輸入,
則被訓練以預測未遮蔽的 fMRI 訊號。所謂的 「雙重對比」 是指模型在 fMRI 表徵學習中優化對比損失並參與了兩個不同的對比過程。
在第一階段的對比學習中,每個包含n 個fMRI 樣本v 的批次中的樣本被隨機遮蔽兩次,產生兩個不同的遮蔽版本
和
,作為對比的正樣本對。隨後,1D 卷積層將這兩個版本轉換為嵌入式表示,分別輸入至 fMRI 編碼器
。解碼器
接收這些編碼的潛在表示,產生預測值
和
。透過 InfoNCE 損失函數計算的第一次對比損失,即交叉對比損失,來最佳化模型:
在第二階段對比學習中,每個未遮蔽的原始影像及其對應的遮蔽影像
形成一對天然正樣本。這裡的
代表解碼器
預測出的影像。第二次對比損失,也就是自對比損失,根據以下公式進行計算:
優化自對比損失能夠實現遮蔽重建。無論是
或
,負樣本
都來自同一批次的實例。
和
共同如下優化:
,其中超參數
和
用於調節各損失項的權重。
第二階段:使用跨模態指導進行調整
#鑑於fMRI記錄的訊號雜訊比較低且高度卷積的特性,對於fMRI特徵學習器來說,專注於與視覺處理最相關且對重建最有資訊價值的大腦活化模式是至關重要的
在第一階段預訓練後,fMRI 自編碼器透過影像輔助進行調整,以實現 fMRI 的重建,第二階段同樣遵循此過程。具體而言,從 n 個樣本批次中選擇一個樣本及其對應的 fMRI 記錄的神經反應
。
和
經過分割塊和隨機遮蔽處理,分別轉變為
和
,然後分別輸入到影像編碼器
和fMRI 編碼器
中,產生
和
。為重建 fMRI
,利用交叉注意力模組將
和
合併:
W 和 b 分別代表對應線性層的權重和偏移。 是縮放因子,
是鍵向量的維度。 CA 是交叉注意力(cross-attention)的縮寫。
加上
後,輸入到fMRI 解碼器中以重建
,得到
:
圖片自編碼器也進行了類似的計算,圖像編碼器的輸出
透過交叉注意力模組
與
的輸出合併,然後用於解碼圖像
,得到
:
#透過最佳化以下損失函數,fMRI 和影像自編碼器共同進行訓練:
#產生影像時,可以使用潛在擴散模型(LDM)
在完成 FRL 第一階段和第二階段的訓練後,使用 fMRI 特徵學習器的編碼器來驅動一個潛在擴散模型(LDM),從大腦活動生成影像。如圖所示,擴散模型包括一個向前的擴散過程和一個逆向去噪過程。向前過程逐漸將影像降解為常態高斯噪聲,透過逐漸引入變方差的高斯噪聲。
該研究透過從預先訓練的標籤到影像潛在擴散模型(LDM)中提取視覺知識,並利用 fMRI 資料作為條件來產生影像。這裡採用交叉注意力機制,將 fMRI 訊息融入 LDM,遵循穩定擴散研究的建議。為了強化條件資訊的作用,這裡採用了交叉注意力和時間步條件化的方法。在訓練階段,使用VQGAN 編碼器和經FRL 第一和第二階段訓練的fMRI 編碼器
處理圖像u 和fMRI v,並在保持LDM 不變的情況下微調fMRI 編碼器,損失函數為:
其中,是擴散模型的雜訊計畫。在推理階段,過程從時間步長 T 的標準高斯噪聲開始,LDM 依次遵循逆向過程逐步去除隱藏表徵的噪聲,條件化在給定的 fMRI 訊息上。當到達時間步長零時,使用 VQGAN 解碼器
將隱藏表徵轉換為影像。
實驗
重建結果
透過與DC-LDM、IC- GAN 和SS-AE 等先前研究的對比,並在GOD 和BOLD5000 資料集上的評估中顯示,該研究提出的模型在準確率上顯著超過這些模型,其中相對於DC-LDM 和IC-GAN 分別提高了39.34% 和66.7%
在GOD 資料集的其他四名受試者上的評估顯示,即使在允許DC-LDM 在測試集上進行調整的情況下,研究提出的模型在50 種方式的Top-1 分類準確率上也顯著優於DC-LDM,證明了所提出的模型在不同受試者大腦活動重建方面的可靠性和優越性。
研究結果顯示,使用提出的fMRI來表徵學習框架和預先訓練的LDM,能夠更好地重建大腦的視覺活動,遠遠超過目前的基準水平。這項工作有助於進一步挖掘神經解碼模型的潛力
以上是NeurIPS23|「讀腦」解碼大腦活動重建視覺世界的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示
