自動化所研發無創多模態學習模型,實現大腦訊號解碼與語意分析
- 論文網址:https://ieeexplore.ieee.org/document/10089190
- #程式碼位址:https://github.com/ChangdeDu/BraVL
- ##資料位址:https:// figshare.com/articles/dataset/BraVL/17024591
首次將大腦、視覺和語言知識結合,透過多模態學習的方式,實現了從人類腦活動記錄中零樣本地解碼視覺新類別。本文也貢獻了三個「腦 - 圖 - 文」三模態匹配資料集。
實驗結果顯示了一些有趣的結論和認知洞見:1)從人類腦活動中解碼新的視覺類別是可以實現的,並且精度較高;2)使用視覺和語言特徵的組合的解碼模型比僅使用其中之一的模型表現更好;3)視覺感知可能伴隨著語言影響來表示視覺刺激的語義。這些發現不僅對人類視覺系統的理解有所啟示,也為未來的腦機介面技術提供了新的思路。本研究的程式碼和資料集均已開源。研究背景
解碼人類視覺神經表徵是具有重要科學意義的挑戰,可以揭示視覺處理機制並促進腦科學與人工智慧的發展。然而,目前的神經解碼方法難以泛化到訓練資料以外的新類別上,主要原因有兩個:一是現有方法未充分利用神經資料背後的多模態語意知識,二是現有的可利用的配對(刺激- 腦響應)訓練資料很少。
研究表明,人類對視覺刺激的感知和識別受到視覺特徵和人們先前經驗的影響。例如當我們看到一個熟悉的物體時,我們的大腦會自然而然地檢索與該物體相關的知識。如下圖1 所示,認知神經科學對雙重編碼理論[9] 的研究認為,具體概念在大腦中既以視覺方式又以語言方式進行編碼,其中語言作為有效的先驗經驗,有助於塑造由視覺生成的表徵。因此,作者認為想要更好地解碼記錄到的腦訊號,不僅應該使用實際呈現的視覺語義特徵,還應該包括與該視覺目標物件相關的更豐富的語言語意特徵的組合來進行解碼。
#圖 1. 人類大腦中的知識雙重編碼。當我們看到大象的圖片時,會自然地在腦海中檢索大象的相關知識(如長長的鼻子、長長的牙齒、大耳朵等)。此時,大象的概念會在大腦中以視覺和語言的形式進行編碼,其中語言作為一種有效的先前經驗,有助於塑造由視覺產生的表徵。
如下圖 2 所示,由於收集各種視覺類別的人腦活動非常昂貴,通常研究者只有非常有限的視覺類別的腦活動。然而,圖像和文字資料卻非常豐富,它們也可以提供額外的有用資訊。本文的方法可以充分利用所有類型的資料(三模態、雙模態和單模態)來提高神經解碼的泛化能力#。
圖 2. 圖像刺激、引發的大腦活動以及它們對應的文字資料。我們只能為少數類別收集大腦活動數據,但可以輕鬆收集幾乎所有類別的圖像和 / 或文字數據。因此,對於已知類別,我們假設大腦活動、視覺圖像和相應的文字描述都可用於訓練,而對於新類別,僅視覺圖像和文字描述可用於訓練。測試數據是來自新類別的大腦活動數據。
「腦- 圖- 文」多模態學習
如下圖3A 所示,本文方法的關鍵在於將每種模態學習到的分佈對齊到一個共享的潛在空間中,該空間包含與新類別相關的基本多模態資訊。
具體地說,作者提出了一種多模態自編碼變分貝葉斯學習框架 #,其中使用了專家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推斷出一種潛在編碼,以實現所有三種模態的聯合生成。為了學習更相關的聯合表示,並在腦活動數據有限的情況下提高數據效率,作者還進一步引入了模態內和模態間的互資訊正則化項。此外,BraVL 模型可以在各種半監督學習場景下進行訓練,以納入額外的大規模圖像類別的視覺和文字特徵。
在圖3B 中,作者從新類別的視覺和文字特徵的潛在表示中訓練SVM 分類器。需要注意的是,在這一步驟中編碼器 E_v 和 E_t 被凍結,只有 SVM 分類器(灰色模組)會被最佳化。
在應用程式中,如圖3C 所示,本文方法的輸入僅為新類別腦訊號,不需要其他資料,因此可以輕鬆應用於大多數神經解碼場景。 SVM 分類器之所以能夠從(B)推廣到(C),是因為這三種模態的潛在表示已經在 A 中對齊。
#圖3 本文提出的「腦- 圖- 文」 三模態聯合學習框架,簡稱BraVL。
此外,腦訊號會因試次(trial)的不同而發生變化,即使是相同的視覺刺激也是如此。為了提高神經解碼的穩定性,作者使用了穩定性選擇方法來處理 fMRI 資料。所有體素的穩定性分數如下圖 4 所示,作者選取穩定性最好的前 15% 體素參與神經解碼過程。這種操作可以有效地降低 fMRI 資料的維度,並抑制噪音體素引起的干擾,而不會嚴重影響腦部特徵的判別能力。
#圖 4. 大腦視覺皮質的體素活動穩定性分數映射圖。
現有的神經編解碼資料集往往只有影像刺激和腦部反應。為了獲得視覺概念對應的語言描述,作者採用了一種半自動的維基百科文章抽取方法。
具體來說,作者首先創建ImageNet 類別與其對應的維基百科頁面的自動匹配,匹配是基於ImageNet 類別和維基百科標題的同義詞集單字之間的相似性,以及它們的父類別。如下圖 5 所示,遺憾的是,這種匹配偶爾會產生假陽性,因為名稱相似的類別可能表示非常不同的概念。在建立三模態資料集時,為了確保視覺特徵和語言特徵之間的高品質匹配,作者手動刪除了不匹配的文章。
图 5. 半自动视觉概念描述获取
实验结果
作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。
对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。
图 6. 加入文本特征后的神经解码准确率增益
除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。
从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说
图 7. 将文本特征贡献投影到视觉皮层
更多实验结果请参见原文。
总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。
讨论与展望
论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」
論文通訊作者、中科院自動化所何暉光研究員指出:「本文提出的方法有三個潛在的應用:1)作為一種神經語義解碼工具,此方法將在新型讀取人腦語義訊息的神經義肢設備的開發中發揮重要作用。雖然這種應用還不成熟,但本文的方法為其提供了技術基礎。2)透過跨模態推斷腦活動,本文方法還可以用作神經編碼工具,用於研究視覺和語言特徵如何在人類大腦皮層上表達,揭示哪些腦區具有多模態屬性(即對視覺和語言特徵敏感)。3)AI 模型內部表徵的神經可解碼性可以被視為該模型的類腦水平指標。因此,本文的方法也可以用作類腦特性評估工具,測試哪個模型的(視覺或語言)表徵更接近於人類腦活動,從而激勵研究人員設計更類腦的計算模型。 ”
神經資訊編解碼是腦機介面領域的核心問題,也是探索人腦複雜功能背後的原理從而促進類腦智能發展的有效途徑。自動化所神經計算與腦機互動研究團隊已在該領域持續深耕多年,做出了一系列研究工作,發表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 頭條報道,並獲得 ICME 2019 Best Paper Runner-up Award。
該研究得到了科技創新2030—「新一代人工智慧」 重大計畫、基金委計畫、自動化所2035 計畫以及中國人工智慧學會- 華為MindSpore 學術獎勵基金及智能基座等項目的支持。
作者簡介
第一作者:杜長德,中科院自動化所特別研究助理,從事腦認知與人工智慧方面的研究,在視覺神經訊息編解碼、多模態神經計算等方面發表論文40 餘篇,包括TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾獲 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百強。先後承擔科技部、基金委、中科院的多項科研任務,研究成果被 MIT Technology Review 頭條報道。
個人首頁:https://changdedu.github.io/
通訊作者:何暉光,中科院自動化所研究員,博導,中國科學院大學職位教授,上海科技大學特聘教授,中科院青促會優秀會員,建國七十週年紀念章獲得者。先後承擔 7 項國家自然基金(含基金重點及國際合作重點)、2 項 863、國家重點研究計畫課題等項目。曾獲國家科技進步二等獎兩項(分別排名第二、第三)、北京市科技進步獎兩項、教育部科技進步一等獎、中科院首屆優秀博士論文獎、北京市科技新星、中科院“盧嘉錫青年人才獎」、福建省「閩江學者」 講座教授。其研究領域為人工智慧、腦 - 機介面、醫學影像分析等。近五年來,在 IEEE TPAMI/TNNLS、ICML 等期刊和會議上發表文章 80 餘篇。他是 IEEEE TCDS、《自動化學報》等期刊編委,CCF 傑出會員,CSIG 傑出會員。
以上是自動化所研發無創多模態學習模型,實現大腦訊號解碼與語意分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
