AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像-人工智慧-PHP中文網

無須微調，用AI直接復現你在想什麼

首頁

科技週邊

人工智慧

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 03:52 PM

ai 影像大腦畫面

即便沒有霍格華茲的魔法，也能看到別人在想什麼了！

方法很簡單，基於Stable Diffusion便視覺化大腦影像。

例如，你看到的小熊、飛機、火車是這樣的。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

當AI看到大腦訊號後，產生的影像是下面的樣子，可見該有的要點全有了。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

這個AI讀腦術剛剛被CVPR 2023接收，讓圈友們瞬間「顱內高潮」。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

太野了！忘了提示工程吧，現在你只要用腦子去「想」那些畫面就行了。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

想像一下，用Stable Diffusion從fMRI資料中重建視覺影像，或許意味著未來可能發展為非入侵式的腦機介面。

讓AI直接跳過人類語言，感知人類大腦中所思所想。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

到時候，馬斯克搞的Neuralink也要追趕這一AI天花板了。

無須微調，用AI直接復現你在想什麼

那麼，AI讀腦究竟如何實現？

最新研究來自日本大阪大學的研究團隊。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

論文網址：https://www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0

大阪大學前沿生物科學研究生院和日本NICT的CiNet的研究人員基於潛在的擴散模型（LDM），更具體地說，透過Stable Diffusion從fMRI資料中重建視覺體驗。

整個運作過程的框架也非常簡單：1個影像編碼器、1個影像解碼器，還有1個語意解碼器。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

透過這樣做，該團隊消除了訓練和微調複雜人工智慧模型的需要。

所有需要訓練的是簡單的線性模型，將下部和上部視覺腦區的fMRI訊號映射到單一Stable Diffusion成分。

具體來說，研究人員將大腦區域映射為圖像和文字編碼器的輸入。下部腦區被映射到影像編碼器，上部腦區被映射到文字編碼器。如此一來可以這讓該系統能夠使用影像組成和語意內容進行重建。

首先是解碼分析。研究中所採用的LDM模型，由影像編碼器ε、影像解碼器D、文字編碼器τ組成。

研究者分別從早期和高級視覺皮層的fMRI訊號中解碼出重建圖像z以及相關文本c的潛在表徵，將其作為輸入，由自動編碼器產生復現出的圖像Xzc。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

接著，研究者也建立了一個編碼模型，對來自LDM不同組件的fMRI訊號進行預測，從而探索LDM的內部運作機制。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

研究人員使用來自自然場景資料集（NSD）的fMRI影像進行實驗，並測試他們是否能使用Stable Diffusion來重建受試者所看到的東西。

可以看到，編碼模型與LDM相關潛像預測精度，最後一種模型在大腦後部視覺皮層產生的預測精確度是最高的。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

對一個主體的視覺重建結果顯示，只用z重建的影像在視覺上與原始影像一致，但不能捕捉到語意內容。

而只用c重建的圖像具有較好的語義保真度，但視覺一致性較差，使用zc重建的圖像則可以同時具備高語義保真度和高解析度.

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

來自所有受試者對相同影像的重建結果顯示，重建的效果在不同受試者之間是穩定且比較準確的。

而在具體細節上的差異，可能來自不同個體知覺經驗或資料品質的不同，而非重建過程有誤。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

最後，將定量評估的結果繪製成圖表。

種種結果顯示，研究中採用的方法不僅可以捕捉到低層次的視覺外觀，而且還能捕捉到原始刺激物的高層次語意內容。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

由此看來，實驗顯示圖像和文字解碼的結合提供了準確的重建。

研究人員表示，受試者之間在準確性方面存在差異，但這些差異與fMRI影像的品質相關。根據團隊的說法，重建的品質與目前SOTA的方法相當，但不需要訓練其中使用的AI模型。

同時，團隊也利用從fMRI資料中得出的模型來研究Stable Diffusion的各個構建塊，例如語意內容是如何在逆向擴散過程中產生的，或在U-Net中發生什麼過程。

在去噪過程的早期階段，U-Net 的瓶頸層（橘色）產生最高的預測效能，隨著去噪過程的進行，早期層（藍色）進行早期視覺皮層活動的預測，瓶頸層則轉向高階視覺皮層。

這也就是說，在擴散過程剛開始時，影像資訊壓縮在瓶頸層中，伴隨著去噪，U-Net層之間的分離出現在視覺皮層中。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

此外，團隊正在對擴散不同階段的影像轉換進行定量解釋。透過這種方式，研究人員旨在從生物學的角度為更好地理解擴散模型做出貢獻，這些模型被廣泛使用，但人們對它們的理解仍然有限。

人腦畫面，早被AI解碼了？

多年來，研究人員一直在使用人工智慧模型來解碼來自人類大腦的訊息。

大多數方法的核心，透過使用預先錄製的fMRI圖像作為文字或圖像的生成性AI模型的輸入。

例如，在2018年初，一組來自日本的研究人員展示了一個神經網路如何從fMRI錄音中重建影像。

2019年，一個小組從猴子的神經元中重建了圖像，Meta的研究小組在Jean-Remi King的領導下，發表了新的工作，例如從fMRI數據中得出文本。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

2022年10月，德州大學奧斯汀分校的一個團隊表明，GPT模型可以從fMRI掃描中推斷出描述一個人在影片中看到的語義內容的文字。

2022年11月，新加坡國立大學、香港中文大學和史丹佛大學的研究人員使用了MinD-Vis擴散模型從fMRI掃描中重建影像，其準確性明顯高於當時可用的方法。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

再往前倒推的話，有網友指出了「根據腦波產生影像至少從2008年開始就有了，以某種方式暗示著Stable Diffusion能夠讀懂人的思想，簡直太荒謬了。」

這項由加州大學柏克萊分校發表在Nature的論文稱，利用視覺解碼器可以將人的腦電波活動轉換成影像。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

#要說回溯歷史，還有人直接拿出1999年，史丹佛李飛飛的一項關於從大腦皮質重建影像的研究。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

李飛飛也動手評論轉發，稱自己當時還是大學實習生。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

也有2011年，UC伯克利的一項研究使用功能性磁振造影（fMRI）和計算模型，初步重建了大腦的「動態視覺影像」。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

也就是說，他們重現了人們看過的片段。

但是相較於最新研究，這項重建完全稱不上「高清」，幾乎無法辨認。

作者介紹

Yu Takagi

Yu Takagi是大阪大學的助理教授。他的研究興趣是計算神經科學和人工智慧的交叉領域。

在博士期間，他在ATR腦資訊交流研究實驗室研究使用功能性磁振造影（fMRI）從全腦功能連結預測不同個體差異的技術。

最近，他在牛津大學的牛津人腦活動中心和東京大學的心理學系，利用機器學習技術了解複雜決策任務中的動態計算。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

Shinji Nishimoto

Shinji Nishimoto是大阪大學的教授。他的研究方面是對大腦中視覺和認知處理的定量理解。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

更具體地說，Nishimoto教授團隊的研究重點是透過建立自然感知和認知條件下誘發的大腦活動的預測模型來理解神經處理和代表。

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

有網友問作者，這項研究能否用於解夢？

「將同樣的技術應用於睡眠期間的大腦活動是可能的，但這種應用的準確性目前還不清楚。」

AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像

看過這項研究後：攝神取念術（Legilimency）妥妥的有了。

參考資料：

##https: //www.php.cn/link/0424d20160a6a558e5bf86a7bc9b67f0

##1 /02d72b702eed900577b953ef7a9c1182

以上是AI讀腦炸裂！掃描大腦畫面，Stable Diffusion逼真復現影像的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7751

Java教學

1643

CakePHP 教程

1397

Laravel 教程

1293

PHP教程

1234

Related knowledge

WorldCoin（WLD）價格預測2025-2031：到2031年WLD會達到4美元嗎？ Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制，在加密货币市场中脱颖而出，吸引了众多投资者的目光。WLD凭借其创新技术，特别是结合OpenAI人工智能技术，在众多山寨币中表现突出。但未来几年，数字资产的走势如何呢？让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示，WLD平均价格可能达到1.31美元，最高可能触及1.36美元。然而，在熊市情况下，价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

虛擬幣價格上漲或者下降是為什麼虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括：1.市場需求增加，2.供應量減少，3.利好消息刺激，4.市場情緒樂觀，5.宏觀經濟環境；下降因素包括：1.市場需求減少，2.供應量增加，3.利空消息打擊，4.市場情緒悲觀，5.宏觀經濟環境。

跨鏈交易什麼意思？跨鏈交易所有哪些？ Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有：1. Binance，2. Uniswap，3. SushiSwap，4. Curve Finance，5. Thorchain，6. 1inch Exchange，7. DLN Trade，這些平台通過各種技術支持多鏈資產交易。

比特幣成品結構分析圖是啥？怎麼畫？ Apr 21, 2025 pm 07:42 PM

繪製比特幣結構分析圖的步驟包括：1. 確定繪圖目的與受眾，2. 選擇合適的工具，3. 設計框架並填充核心組件，4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議：1. 流動性需求，優先選擇幣安、Gate.io或OKX，因其訂單深度與抗波動能力強。 2. 合規與安全，Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能，KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

如何在幣安拿下 KERNEL 空投獎勵全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡，新機遇總是不斷湧現。當下，KernelDAO (KERNEL) 空投活動正備受矚目，吸引著眾多投資者的目光。那麼，這個項目究竟是什麼來頭？ BNB Holder 又能從中獲得怎樣的好處？別急，下面將為你一一揭曉。

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議，已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議，已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃（ACI）創始人馬克·澤勒（MarcZeller）在X上宣布了這一點，並指出它標誌著該協議的新時代。 AAVE連鎖倡議（ACI）創始人MarcZeller在X上宣布，Aavenomics提案包括修改AAVE協議令牌和引入令牌回購，已為AAVEDAO實現了法定人數。根據Zeller的說法，這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議，即在周三以每週100