你大腦中的畫面，現在可以高清還原了-人工智慧-PHP中文網

#方法概述

實驗與分析

首頁

科技週邊

人工智慧

你大腦中的畫面，現在可以高清還原了

王林

Jul 06, 2023 pm 07:17 PM

ai 創意

近年來，圖像生成領域取得了巨大的進步，尤其是文字到圖像生成方面取得了重大突破：只要我們用文字描述自己的想法，AI 就能產生新奇又逼真的圖像。

但其實我們可以更進一步－將腦中的想法轉化為文本這一步可以省去，直接透過腦活動（如EEG（腦電圖）記錄）來控制圖像的生成創作。

這種「思維到圖像」的生成方式有著廣闊的應用前景。例如，它能極大地提高藝術創作的效率，並幫助人們捕捉稍縱即逝的靈感；它也有可能將人們夜晚的夢境進行可視化；它甚至可能用於心理治療，幫助自閉症兒童和語言障礙患者。

最近，來自清華大學深圳國際研究生院、騰訊AI Lab 和鵬城實驗室的研究者們聯合發表了一篇「思維到圖像」的研究論文，利用預訓練的文字到影像模型（例如Stable Diffusion）強大的生成能力，直接從腦電圖訊號產生了高品質的影像。

你大腦中的畫面，現在可以高清還原了圖片

論文網址：https://arxiv.org/pdf/2306.16934.pdf

#專案地址：https://github.com/bbaaii/DreamDiffusion

#方法概述

近期一些相關研究（例如MinD-Vis）嘗試基於fMRI（功能性磁振造影訊號）來重建視覺資訊。他們已經證明了利用腦活動重建高品質結果的可行性。然而，這些方法與理想中使用腦訊號進行快速、高效的創作還差得太遠，這主要有兩點原因：

首先，fMRI 設備不便攜，並且需要專業人員操作，因此捕捉fMRI 訊號很困難；

其次，fMRI 資料收集的成本較高，這在實際的藝術創作中會很大程度地阻礙該方法的使用。

相比之下，EEG 是一種非侵入性、低成本的腦電活動記錄方法，並且現在市面上已經有獲得 EEG 訊號的便攜商用產品。

但實現「思維到圖像」的生成還面臨兩個主要挑戰：

1）EEG 訊號通過非侵入式的方法來捕捉，因此它本質上是有噪音的。此外，EEG 數據有限，個體差異不容忽視。那麼，如何從如此多的約束條件下的腦電訊號中獲得有效且穩健的語意表徵呢？

2）由於使用了 CLIP 並在大量文字 - 影像對上進行訓練，Stable Diffusion 中的文字和影像空間對齊良好。然而，EEG 訊號具有其自身的特點，其空間與文字和圖像大不相同。如何在有限且有雜訊的 EEG - 影像對上對齊 EEG、文字和影像空間？

為了解決第一個挑戰，該研究提出，使用大量的 EEG 資料來訓練 EEG 表徵，而不是僅用罕見的 EEG 影像對。研究採用掩碼訊號建模的方法，根據上下文線索預測缺失的 token。

不同於將輸入視為二維影像並屏蔽空間資訊的MAE 和MinD-Vis，該研究考慮了EEG 訊號的時間特性，並深入挖掘人類大腦時序變化背後的語義。研究隨機屏蔽了一部分 token，然後在時間域內重建這些被屏蔽的 token。透過這種方式，預先訓練的編碼器能夠對不同個體和不同腦部活動的 EEG 資料進行深入理解。

對於第二個挑戰，先前的解決方法通常直接對 Stable Diffusion 模型進行微調，使用少量雜訊資料對進行訓練。然而，僅透過最終的影像重建損失對 SD 進行端到端微調，很難學習到腦訊號（例如 EEG 和 fMRI）與文字空間之間的準確對齊。因此，研究團隊提出採用額外的 CLIP 監督，以幫助實現 EEG、文字和圖像空間的對齊。

具體而言，SD 本身使用 CLIP 的文字編碼器來產生文字嵌入，這與先前階段的遮罩預訓練 EEG 嵌入非常不同。利用 CLIP 的圖像編碼器提取豐富的圖像嵌入，這些嵌入與 CLIP 的文字嵌入很好地對齊。然後，這些 CLIP 影像嵌入被用於進一步優化 EEG 嵌入表徵。因此，經過改進的 EEG 特徵嵌入可以與 CLIP 的圖像和文字嵌入很好地對齊，並更適合於 SD 圖像生成，從而提高生成圖像的品質。

基於上述兩個精心設計的方案，研究提出了新方法 DreamDiffusion。 DreamDiffusion 能夠從腦電圖（EEG）訊號中產生高品質且逼真的影像。

你大腦中的畫面，現在可以高清還原了圖片

具體來說，DreamDiffusion 主要由三個部分組成：

1）遮罩訊號預先訓練，以實現有效且穩健的EEG 編碼器；

2）使用預訓練的Stable Diffusion 和有限的EEG 影像對進行微調；

3）使用CLIP 編碼器，對齊EEG、文字和圖像空間。

首先，研究人員利用大量雜訊的 EEG 數據，採用掩碼訊號建模，訓練 EEG 編碼器，提取上下文知識。然後，得到的 EEG 編碼器透過交叉注意力機制被用來為 Stable Diffusion 提供條件特徵。

你大腦中的畫面，現在可以高清還原了圖片

為了增強EEG 特徵與Stable Diffusion 的兼容性，研究人員進一步透過在微調過程中減少EEG 嵌入與CLIP 影像嵌入之間的距離，進一步對齊了EEG、文字和影像的嵌入空間。

實驗與分析

與Brain2Image 比較

##研究人員將本文方法與Brain2Image 進行比較。 Brain2Image 採用傳統的生成模型，即變分自編碼器（VAE）和生成對抗網路（GAN），用於實現從 EEG 到影像的轉換。然而，Brain2Image 僅提供了少數類別的結果，並沒有提供參考實作。

有鑑於此，該研究對 Brain2Image 論文中展示的幾個類別（即飛機、南瓜燈和熊貓）進行了定性比較。為確保比較公平，研究人員採用了與 Brain2Image 論文中所述相同的評估策略，並在下圖 5 中展示了不同方法產生的結果。

下圖第一行展示了 Brain2Image 產生的結果，最後一行是研究人員提出的方法 DreamDiffusion 產生的。可以看到 DreamDiffusion 產生的影像品質明顯高於 Brain2Image 產生的影像，這也驗證了本文方法的有效性。

你大腦中的畫面，現在可以高清還原了圖片

＃消融實驗

你大腦中的畫面，現在可以高清還原了

預訓練的作用

：為了證明大規模EEG 資料預訓練的有效性，該研究使用未經訓練的編碼器來訓練多個模型進行驗證。其中一個模型與完整模型相同，而另一個模型只有兩層的 EEG 編碼層，以避免資料過度擬合。在訓練過程中，這兩個模型分別進行了有 / 無 CLIP 監督的訓練，結果如表 1 中 Model 列的 1 到 4 所示。可以看到，沒有經過預先訓練的模型準確性有所降低。

mask ratio：本文也研究了以EEG 資料確定MSM 預訓練的最佳掩碼比。如表 1 中的 Model 列的 5 到 7 所示，過高或過低的遮罩比會對模型效能都會產生不利影響。當遮罩比為 0.75 達到最高的整體準確率。這項發現至關重要，因為這表明，與通常使用低遮罩比的自然語言處理不同，在對 EEG 進行 MSM 時，高遮罩比是一個較好的選擇。

你大腦中的畫面，現在可以高清還原了 CLIP 對齊

###：此方法的關鍵之一是透過 CLIP 編碼器將 EEG 表徵與影像對齊。研究進行實驗驗證了這種方法的有效性，結果如表 1 所示。可以觀察到，當沒有使用 CLIP 監督時，模型的表現會明顯下降。實際上，如圖 6 右下角所示，即使在沒有預訓練的情況下，使用 CLIP 對齊 EEG 特徵仍然可以獲得合理的結果，這凸顯了 CLIP 監督在該方法中的重要性。 ###############圖片######

以上是你大腦中的畫面，現在可以高清還原了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1273

C# 教程

1252

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：