'使用Stable Diffusion技術重現影像,相關研究被CVPR會議接受'
如果人工智慧可以解讀你的想像,將你腦海中的圖像變成現實,那會怎麼樣?
雖然這聽起來有點賽博龐克。但最近發表的一篇論文,讓 AI 圈吵翻了天。
這篇論文發現,他們使用最近非常火辣的Stable Diffusion,就能重建大腦活動中的高分辨率、高精準影像。作者寫道,與先前的研究不同,他們不需要訓練或微調人工智慧模型來創建這些圖像。
- #論文網址:https://www .biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
- 網頁網址:https://sites.google.com/view/ stablediffusion-with-brain/
他們是怎麼做到的呢?
在本研究中,作者基於 Stable Diffusion 來重建透過功能性磁振造影 (fMRI) 而獲得的人腦活動影像。作者也表示,透過研究與大腦相關功能的不同組成部分(例如圖像 Z 的潛在向量等),也有助於了解隱擴散模型的機制。
這篇論文也已經被 CVPR 2023 接收。
該研究的主要貢獻包括:
- #證明了其簡單框架可以從具有高語義保真度的大腦活動中重建高解析度(512×512)影像,而無需訓練或微調複雜的深度生成模型,如下圖所示;
- 透過將特定組成部分映射到不同的大腦區域,該研究從神經科學的角度定量解釋了LDM 的每個組成部分;
- 該研究客觀地解釋了LDM 實現的文本到圖像轉換過程如何結合條件文本表達的語意訊息,同時保持原始影像的外觀。
方法概覽
該研究的整體方法如下圖 2 所示。圖 2(上)是該研究中使用的 LDM 示意圖,其中,ε 表示圖像編碼器,D 表示圖像解碼器,τ 表示文字編碼器(CLIP)。
圖 2(中)是本研究的解碼分析示意圖。研究者分別從早期(藍色)和高級(黃色)視覺皮層內的 fMRI 訊號中解碼了呈現圖像 (z) 和相關文本 c 的潛在表徵。這些潛在表徵被用作產生重建影像 X_zc 的輸入。
圖 2(下)是本研究的編碼分析示意圖。研究者建構了編碼模型來預測來自 LDM 不同組成部分的 fMRI 訊號,包括 z、c 和 z_c。
有關 Stable Diffusion 這裡就不做太多介紹,相信很多人比較了解。
結果
我們來看看該研究的視覺重建結果。
解碼
#下圖 3 展示了一個主體(subj01)的視覺重建結果。研究者為每個測試影像產生了五個影像,並選擇了具有最高 PSM 的影像。一方面,只用 z 重建的圖像在視覺上與原始圖像一致,但未能抓住其語義內容。另一方面,只用 c 重建的圖像產生的圖像具有很高的語義保真度,但在視覺上卻不一致。最後,使用 z_c 重建的影像可以產生具有高語義保真度的高解析度影像。
圖4 展示了所有測試者對相同影像的重建影像(所有影像都是用z_c 產生的) 。整體來說,各測試者的重建品質是穩定且準確的。
#圖5 是量化評估的結果:
#編碼模型
#圖6 顯示了編碼模型對與LDM 相關的三種潛像的預測精度:z,原始圖像的潛像;c,圖像文本註釋的潛像;以及z_c,經過與c 交叉注意力反向擴散過程後的z 的加噪潛像表徵。
圖 7 顯示,當加入少量的雜訊時,z 對整個皮質的體素活動的預測比 z_c 更好。有趣的是,當增加噪音水平時,z_c 對高位視覺皮層內體素活動的預測優於 z,這表明圖像的語義內容逐漸被強調。
在迭代去噪過程中,加入雜訊的潛在表徵如何改變?圖 8 顯示,在去雜訊過程的早期階段,z 訊號主導了 fMRI 訊號的預測。在去噪過程的中間階段,z_c 對高位視覺皮層內活動的預測比 z 好得多,表明大部分語義內容在這個階段出現了。結果顯示了 LDM 如何從雜訊中提煉和生成影像。
最後,研究者探討了 U-Net 的每一層都在處理什麼資訊。圖 9 顯示了去雜訊過程的不同步驟(早期、中期、晚期)以及 U-Net 不同層的編碼模型的結果。在去噪過程的早期階段,U-Net 的瓶頸層(橘色)在整個皮質中產生了最高的預測效能。然而,隨著去噪的進行,U-Net 的早期層(藍色)預測早期視覺皮層內的活動,而瓶頸層則轉向對更高的視覺皮層的卓越預測能力。
更多研究細節,可查看原始論文。
以上是'使用Stable Diffusion技術重現影像,相關研究被CVPR會議接受'的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

窗戶從來不是一個忽視美學的人。從XP的田園綠場到Windows11的藍色漩渦設計,預設桌面桌布多年來一直是用戶愉悅的來源。借助WindowsSpotlight,您現在每天都可以直接存取鎖定螢幕和桌面桌布的美麗、令人敬畏的圖像。不幸的是,這些圖像並沒有閒逛。如果您愛上了Windows聚光燈圖像之一,那麼您將想知道如何下載它們,以便將它們作為背景保留一段時間。以下是您需要了解的所有資訊。什麼是WindowsSpotlight?窗口聚光燈是一個自動壁紙更新程序,可以從“設定”應用中的“個性化>

大規模語言模型(LLMs)在許多重要任務中展現了引人注目的能力,包括自然語言理解、語言生成和複雜推理,並對社會產生了深遠的影響。然而,這些出色的能力卻需要大量的訓練資源(如左圖)和較長的推理時間(如右圖)。因此,研究人員需要開發有效的技術手段來解決它們的效率問題。此外,從圖的右邊還可以看出,一些高效率的LLMs(LanguageModels)如Mistral-7B,已經成功應用於LLMs的設計和部署中。這些高效的LLMs在保持與LLaMA1-33B相近的準確性的同時,能夠大大減少推理內存

隨著人工智慧技術的不斷發展,影像語意分割技術已成為影像分析領域的熱門研究方向。在影像語意分割中,我們將一張影像中的不同區域進行分割,並對每個區域進行分類,從而達到對這張影像的全面理解。 Python是一種著名的程式語言,其強大的資料分析和資料視覺化能力使其成為了人工智慧技術研究領域的首選。本文將介紹如何在Python中使用影像語意分割技術。一、前置知識在深入

3奈米製程,性能超越H100!最近,根據外媒DigiTimes爆料,英偉達正在開發下一代GPU,代號為「Blackwell」的B100據稱,作為面向人工智慧(AI)和高性能計算(HPC)應用的產品,B100將採用台積電的3nm工藝過程,以及更為複雜的多晶片模組(MCM)設計,並將於2024年第四季現身。對於壟斷了人工智慧GPU市場80%以上份額的英偉達來說,則可以藉著B100趁熱打鐵,在這波AI部署的熱潮中進一步狙擊AMD、英特爾等挑戰者。根據英偉達的估計,到2027年,該領域的產值預計將達到約

多模態大模型最全綜述來了!由微軟7位華人研究員撰寫,足足119頁——它從目前已經完善的和還處於最前沿的兩類多模態大模型研究方向出發,全面總結了五個具體研究主題:視覺理解視覺生成統一視覺模型LLM加持的多模態大模型多模態agent並專注於一個現象:多模態基礎模型已經從專用走向通用。 Ps.這也是為什麼論文開頭作者就直接畫了一個哆啦A夢的形象。誰適合閱讀這份綜述(報告)?用微軟的原話來說:只要你有興趣學習多模態基礎模型的基礎知識和最新進展,無論你是專業研究員還是在校學生,這個內容都非常適合你一起來

那些必須每天處理圖像檔案的人經常不得不調整它們的大小以適應他們的專案和工作的需求。但是,如果要處理的圖像太多,則單獨調整它們的大小會消耗大量時間和精力。在這種情況下,像PowerToys這樣的工具可以派上用場,除此之外,可以使用其影像調整大小器實用程式批次調整影像檔案的大小。以下是設定影像調整器設定並開始使用PowerToys批次調整影像大小的方法。如何使用PowerToys批次調整影像大小PowerToys是一個多合一的程序,具有各種實用程式和功能,可協助您加快日常任務。它的實用程式之一是圖像

透過iOS17照片應用,Apple可以更輕鬆地根據您的規格裁剪照片。繼續閱讀以了解如何操作。以前在iOS16中,在「照片」應用程式中裁剪圖像涉及幾個步驟:點擊編輯介面,選擇裁剪工具,然後透過捏合縮放手勢或拖曳裁剪工具的角落來調整裁剪。在iOS17中,值得慶幸的是,蘋果簡化了這個過程,這樣當你放大照片庫中任何選定的照片時,一個新的「裁剪」按鈕會自動出現在螢幕的右上角。點擊它會彈出完整的裁剪介面,其中包含您選擇的縮放級別,因此您可以裁剪到您喜歡的圖像部分,旋轉圖像,反轉圖像,或應用螢幕比例,或使用標記

行動攝影從根本上改變了我們捕捉和分享生活瞬間的方法。智慧型手機的出現,尤其是iPhone,在這一轉變中發揮了關鍵作用。 iPhone以其先進的相機技術和用戶友好的編輯功能而聞名,已成為業餘和經驗豐富的攝影師的首選。 iOS17的推出標誌著這趟旅程中的一個重要里程碑。 Apple的最新更新帶來了一套增強的照片編輯功能,為用戶提供了一個更強大的工具包,將他們的日常快照變成視覺上引人入勝且藝術豐富的圖像。這種技術的發展不僅簡化了攝影過程,還為創意表達開闢了新的途徑,使用戶能夠毫不費力地為他們的照片注入專業氣息
