目录
方法概览
结果
首页 科技周边 人工智能 "使用Stable Diffusion技术重现图像,相关研究被CVPR会议接受"

"使用Stable Diffusion技术重现图像,相关研究被CVPR会议接受"

Apr 26, 2023 pm 12:43 PM
图像 研究

如果人工智能可以解读你的想象,将你脑海中的图像变成现实,那会怎样?

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

虽然这听起来有点赛博朋克。但最近发表的一篇论文,让 AI 圈吵翻了天。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

这篇论文发现,他们使用最近非常火的 Stable Diffusion,就能重建大脑活动中的高分辨率、高精准图像。作者写道,与之前的研究不同,他们不需要训练或微调人工智能模型来创建这些图像。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了


  • 论文地址:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf
  • 网页地址:https://sites.google.com/view/stablediffusion-with-brain/

他们是怎么做到的呢?

在此研究中,作者基于 Stable Diffusion 来重建通过功能磁共振成像 (fMRI) 而获得的人脑活动图像。作者也表示,通过研究与大脑相关功能的不同组成部分(例如图像 Z 的潜在向量等),也有助于了解隐扩散模型的机制。 

这篇论文也已经被 CVPR 2023 接收。

该研究的主要贡献包括:

  • 证明了其简单框架可以从具有高语义保真度的大脑活动中重建高分辨率(512×512)图像,而无需训练或微调复杂的深度生成模型,如下图所示;
  • 通过将特定组成部分映射到不同的大脑区域,该研究从神经科学的角度定量解释了 LDM 的每个组成部分;
  • 该研究客观地解释了 LDM 实现的文本到图像转换过程如何结合条件文本表达的语义信息,同时保持原始图像的外观。

方法概览

该研究的总体方法如下图 2 所示。图 2(上)是该研究中使用的 LDM 示意图,其中,ε 表示图像编码器,D 表示图像解码器,τ 表示文本编码器(CLIP)。 

图 2(中)是该研究的解码分析示意图。研究者分别从早期(蓝色)和高级(黄色)视觉皮层内的 fMRI 信号中解码了呈现图像 (z) 和相关文本 c 的潜在表征。这些潜在表征被用作生成重建图像 X_zc 的输入。 

图 2(下)是该研究的编码分析示意图。研究者构建了编码模型来预测来自 LDM 不同组成部分的 fMRI 信号,包括 z、c 和 z_c。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

有关 Stable Diffusion 这里就不做过多介绍,相信很多人都比较了解。

结果

我们来看一下该研究的视觉重建结果。

解码

下图 3 展示了一个主体(subj01)的视觉重建结果。研究者为每个测试图像生成了五个图像,并选择了具有最高 PSM 的图像。一方面,只用 z 重建的图像在视觉上与原始图像一致,但未能抓住其语义内容。另一方面,只用 c 重建的图像生成的图像具有很高的语义保真度,但在视觉上却不一致。最后,使用 z_c 重建的图像可以生成具有高语义保真度的高分辨率图像。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

图 4 展示了所有测试者对同一图像的重建图像(所有图像都是用 z_c 生成的)。总体来说,各测试者的重建质量是稳定和准确的。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

图 5 是定量评估的结果:

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

编码模型

图 6 显示了编码模型对与 LDM 相关的三种潜像的预测精度:z,原始图像的潜像;c,图像文本注释的潜像;以及 z_c,经过与 c 交叉注意力反向扩散过程后的 z 的加噪潜像表征。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

图 7 显示,当加入少量的噪声时,z 对整个皮层的体素活动的预测比 z_c 更好。有趣的是,当增加噪声水平时,z_c 对高位视觉皮层内体素活动的预测优于 z,表明图像的语义内容逐渐被强调。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

在迭代去噪过程中,添加噪声的潜在表征如何变化?图 8 显示,在去噪过程的早期阶段,z 信号主导了 fMRI 信号的预测。在去噪过程的中间阶段,z_c 对高位视觉皮层内活动的预测比 z 好得多,表明大部分语义内容在这个阶段出现了。结果显示了 LDM 如何从噪声中提炼和生成图像。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

最后,研究者探讨了 U-Net 的每一层都在处理什么信息。图 9 显示了去噪过程的不同步骤(早期、中期、晚期)以及 U-Net 不同层的编码模型的结果。在去噪过程的早期阶段,U-Net 的瓶颈层(橙色)在整个皮层中产生了最高的预测性能。然而,随着去噪的进行,U-Net 的早期层(蓝色)预测早期视觉皮层内的活动,而瓶颈层则转向对更高的视觉皮层的卓越预测能力。

Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了

更多研究细节,可查看原论文。

以上是"使用Stable Diffusion技术重现图像,相关研究被CVPR会议接受"的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何在电脑上下载 Windows 聚光灯壁纸图像 如何在电脑上下载 Windows 聚光灯壁纸图像 Aug 23, 2023 pm 02:06 PM

窗户从来不是一个忽视美学的人。从XP的田园绿场到Windows11的蓝色漩涡设计,默认桌面壁纸多年来一直是用户愉悦的源泉。借助WindowsSpotlight,您现在每天都可以直接访问锁屏和桌面壁纸的美丽、令人敬畏的图像。不幸的是,这些图像并没有闲逛。如果您爱上了Windows聚光灯图像之一,那么您将想知道如何下载它们,以便将它们作为背景保留一段时间。以下是您需要了解的所有信息。什么是WindowsSpotlight?窗口聚光灯是一个自动壁纸更新程序,可以从“设置”应用中的“个性化&gt

深入探讨模型、数据和框架:一份详尽的54页高效大语言模型综述 深入探讨模型、数据和框架:一份详尽的54页高效大语言模型综述 Jan 14, 2024 pm 07:48 PM

大规模语言模型(LLMs)在许多重要任务中展现出了引人注目的能力,包括自然语言理解、语言生成和复杂推理,并对社会产生了深远的影响。然而,这些出色的能力却需要大量的训练资源(如左图所示)和较长的推理时间(如右图所示)。因此,研究人员需要开发有效的技术手段来解决它们的效率问题。此外,从图的右侧还可以看出,一些高效的LLMs(LanguageModels)如Mistral-7B,已经成功应用于LLMs的设计和部署中。这些高效的LLMs在保持与LLaMA1-33B相近的准确性的同时,能够大大减少推理内存

如何在Python中使用图像语义分割技术? 如何在Python中使用图像语义分割技术? Jun 06, 2023 am 08:03 AM

随着人工智能技术的不断发展,图像语义分割技术已经成为图像分析领域的热门研究方向。在图像语义分割中,我们将一张图像中的不同区域进行分割,并对每个区域进行分类,从而达到对这张图像的全面理解。Python是一种著名的编程语言,其强大的数据分析和数据可视化能力使其成为了人工智能技术研究领域的首选。本文将介绍如何在Python中使用图像语义分割技术。一、前置知识在深入

碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相 碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相 Sep 30, 2023 pm 12:49 PM

3纳米制程,性能超越H100!最近,据外媒DigiTimes爆料,英伟达正在开发下一代GPU,代号为「Blackwell」的B100据称,作为面向人工智能(AI)和高性能计算(HPC)应用的产品,B100将采用台积电的3nm工艺制程,以及更为复杂的多芯片模块(MCM)设计,并将于2024年第四季度现身。对于垄断了人工智能GPU市场80%以上份额的英伟达来说,则可以借着B100趁热打铁,在这波AI部署的热潮中进一步狙击AMD、英特尔等挑战者。根据英伟达的估计,到2027年,该领域的产值预计将达到约

多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页 多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页 Sep 25, 2023 pm 04:49 PM

多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent并重点关注到一个现象:多模态基础模型已经从专用走向通用。Ps.这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。谁适合阅读这份综述(报告)?用微软的原话来说:只要你有兴趣学习多模态基础模型的基础知识和最新进展,无论你是专业研究员还是在校学生,这个内容都非常适合你一起来

iOS 17:如何在照片中使用一键裁剪 iOS 17:如何在照片中使用一键裁剪 Sep 20, 2023 pm 08:45 PM

借助iOS17照片应用,Apple可以更轻松地根据您的规格裁剪照片。继续阅读以了解如何操作。以前在iOS16中,在“照片”应用程序中裁剪图像涉及几个步骤:点击编辑界面,选择裁剪工具,然后通过捏合缩放手势或拖动裁剪工具的角来调整裁剪。在iOS17中,值得庆幸的是,苹果简化了这个过程,这样当你放大照片库中任何选定的照片时,一个新的“裁剪”按钮会自动出现在屏幕的右上角。点击它会弹出完整的裁剪界面,其中包含您选择的缩放级别,因此您可以裁剪到您喜欢的图像部分,旋转图像,反转图像,或应用屏幕比例,或使用标记

如何在Windows上使用PowerToys批量调整图像大小 如何在Windows上使用PowerToys批量调整图像大小 Aug 23, 2023 pm 07:49 PM

那些必须每天处理图像文件的人经常不得不调整它们的大小以适应他们的项目和工作的需求。但是,如果要处理的图像太多,则单独调整它们的大小会消耗大量时间和精力。在这种情况下,像PowerToys这样的工具可以派上用场,除其他外,可以使用其图像调整大小器实用程序批量调整图像文件的大小。以下是设置图像调整器设置并开始使用PowerToys批量调整图像大小的方法。如何使用PowerToys批量调整图像大小PowerToys是一个多合一的程序,具有各种实用程序和功能,可帮助您加快日常任务。它的实用程序之一是图像

如何使用 iOS 17 在 iPhone 上编辑照片 如何使用 iOS 17 在 iPhone 上编辑照片 Nov 30, 2023 pm 11:39 PM

移动摄影从根本上改变了我们捕捉和分享生活瞬间的方法。智能手机的出现,尤其是iPhone,在这一转变中发挥了关键作用。iPhone以其先进的相机技术和用户友好的编辑功能而闻名,已成为业余和经验丰富的摄影师的首选。iOS17的推出标志着这一旅程中的一个重要里程碑。Apple的最新更新带来了一套增强的照片编辑功能,为用户提供了一个更强大的工具包,将他们的日常快照变成视觉上引人入胜且艺术丰富的图像。这种技术的发展不仅简化了摄影过程,还为创意表达开辟了新的途径,使用户能够毫不费力地为他们的照片注入专业气息

See all articles