你大腦中的畫面,現在可以高清還原了
近年來,圖像生成領域取得了巨大的進步,尤其是文字到圖像生成方面取得了重大突破:只要我們用文字描述自己的想法,AI 就能產生新奇又逼真的圖像。
但其實我們可以更進一步- 將腦中的想法轉化為文本這一步可以省去,直接透過腦活動(如EEG(腦電圖)記錄)來控制圖像的生成創作。
這種「思維到圖像」的生成方式有著廣闊的應用前景。例如,它能極大地提高藝術創作的效率,並幫助人們捕捉稍縱即逝的靈感;它也有可能將人們夜晚的夢境進行可視化;它甚至可能用於心理治療,幫助自閉症兒童和語言障礙患者。
最近,來自清華大學深圳國際研究生院、騰訊AI Lab 和鵬城實驗室的研究者們聯合發表了一篇「思維到圖像」的研究論文,利用預訓練的文字到影像模型(例如Stable Diffusion)強大的生成能力,直接從腦電圖訊號產生了高品質的影像。
圖片
論文網址:https://arxiv.org/pdf/2306.16934.pdf
#專案地址:https://github.com/bbaaii/DreamDiffusion
#方法概述
近期一些相關研究(例如MinD-Vis)嘗試基於fMRI(功能性磁振造影訊號)來重建視覺資訊。他們已經證明了利用腦活動重建高品質結果的可行性。然而,這些方法與理想中使用腦訊號進行快速、高效的創作還差得太遠,這主要有兩點原因:
首先,fMRI 設備不便攜,並且需要專業人員操作,因此捕捉fMRI 訊號很困難;
其次,fMRI 資料收集的成本較高,這在實際的藝術創作中會很大程度地阻礙該方法的使用。
相比之下,EEG 是一種非侵入性、低成本的腦電活動記錄方法,並且現在市面上已經有獲得 EEG 訊號的便攜商用產品。
但實現「思維到圖像」的生成還面臨兩個主要挑戰:
1)EEG 訊號通過非侵入式的方法來捕捉,因此它本質上是有噪音的。此外,EEG 數據有限,個體差異不容忽視。那麼,如何從如此多的約束條件下的腦電訊號中獲得有效且穩健的語意表徵呢?
2)由於使用了 CLIP 並在大量文字 - 影像對上進行訓練,Stable Diffusion 中的文字和影像空間對齊良好。然而,EEG 訊號具有其自身的特點,其空間與文字和圖像大不相同。如何在有限且有雜訊的 EEG - 影像對上對齊 EEG、文字和影像空間?
為了解決第一個挑戰,該研究提出,使用大量的 EEG 資料來訓練 EEG 表徵,而不是僅用罕見的 EEG 影像對。研究採用掩碼訊號建模的方法,根據上下文線索預測缺失的 token。
不同於將輸入視為二維影像並屏蔽空間資訊的MAE 和MinD-Vis,該研究考慮了EEG 訊號的時間特性,並深入挖掘人類大腦時序變化背後的語義。研究隨機屏蔽了一部分 token,然後在時間域內重建這些被屏蔽的 token。透過這種方式,預先訓練的編碼器能夠對不同個體和不同腦部活動的 EEG 資料進行深入理解。
對於第二個挑戰,先前的解決方法通常直接對 Stable Diffusion 模型進行微調,使用少量雜訊資料對進行訓練。然而,僅透過最終的影像重建損失對 SD 進行端到端微調,很難學習到腦訊號(例如 EEG 和 fMRI)與文字空間之間的準確對齊。因此,研究團隊提出採用額外的 CLIP 監督,以幫助實現 EEG、文字和圖像空間的對齊。
具體而言,SD 本身使用 CLIP 的文字編碼器來產生文字嵌入,這與先前階段的遮罩預訓練 EEG 嵌入非常不同。利用 CLIP 的圖像編碼器提取豐富的圖像嵌入,這些嵌入與 CLIP 的文字嵌入很好地對齊。然後,這些 CLIP 影像嵌入被用於進一步優化 EEG 嵌入表徵。因此,經過改進的 EEG 特徵嵌入可以與 CLIP 的圖像和文字嵌入很好地對齊,並更適合於 SD 圖像生成,從而提高生成圖像的品質。
基於上述兩個精心設計的方案,研究提出了新方法 DreamDiffusion。 DreamDiffusion 能夠從腦電圖(EEG)訊號中產生高品質且逼真的影像。
圖片
具體來說,DreamDiffusion 主要由三個部分組成:
1)遮罩訊號預先訓練,以實現有效且穩健的EEG 編碼器;
2)使用預訓練的Stable Diffusion 和有限的EEG 影像對進行微調;
3)使用CLIP 編碼器,對齊EEG、文字和圖像空間。
首先,研究人員利用大量雜訊的 EEG 數據,採用掩碼訊號建模,訓練 EEG 編碼器,提取上下文知識。然後,得到的 EEG 編碼器透過交叉注意力機制被用來為 Stable Diffusion 提供條件特徵。
圖片
為了增強EEG 特徵與Stable Diffusion 的兼容性,研究人員進一步透過在微調過程中減少EEG 嵌入與CLIP 影像嵌入之間的距離,進一步對齊了EEG、文字和影像的嵌入空間。
實驗與分析
與Brain2Image 比較
##研究人員將本文方法與Brain2Image 進行比較。 Brain2Image 採用傳統的生成模型,即變分自編碼器(VAE)和生成對抗網路(GAN),用於實現從 EEG 到影像的轉換。然而,Brain2Image 僅提供了少數類別的結果,並沒有提供參考實作。
有鑑於此,該研究對 Brain2Image 論文中展示的幾個類別(即飛機、南瓜燈和熊貓)進行了定性比較。為確保比較公平,研究人員採用了與 Brain2Image 論文中所述相同的評估策略,並在下圖 5 中展示了不同方法產生的結果。
下圖第一行展示了 Brain2Image 產生的結果,最後一行是研究人員提出的方法 DreamDiffusion 產生的。可以看到 DreamDiffusion 產生的影像品質明顯高於 Brain2Image 產生的影像,這也驗證了本文方法的有效性。
圖片
#消融實驗
:為了證明大規模EEG 資料預訓練的有效性,該研究使用未經訓練的編碼器來訓練多個模型進行驗證。其中一個模型與完整模型相同,而另一個模型只有兩層的 EEG 編碼層,以避免資料過度擬合。在訓練過程中,這兩個模型分別進行了有 / 無 CLIP 監督的訓練,結果如表 1 中 Model 列的 1 到 4 所示。可以看到,沒有經過預先訓練的模型準確性有所降低。
mask ratio:本文也研究了以EEG 資料確定MSM 預訓練的最佳掩碼比。如表 1 中的 Model 列的 5 到 7 所示,過高或過低的遮罩比會對模型效能都會產生不利影響。當遮罩比為 0.75 達到最高的整體準確率。這項發現至關重要,因為這表明,與通常使用低遮罩比的自然語言處理不同,在對 EEG 進行 MSM 時,高遮罩比是一個較好的選擇。
CLIP 對齊
以上是你大腦中的畫面,現在可以高清還原了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

在當今的加密貨幣市場中,交易所扮演著至關重要的角色,它們不僅是投資者進行買賣交易的平台,更是市場流動性和價格發現的重要來源。全球最大的虛擬貨幣交易所排行前十,這些交易所不僅在交易量上遙遙領先,而且在用戶體驗、安全性和創新服務方面也各有千秋。排行榜首的交易所通常擁有龐大的用戶基礎和廣泛的市場影響力,它們的交易量和資產種類往往是其他交易所難以企及的。
