字节复旦团队创新的「元提示」策略提升了扩散模型图像理解的性能,达到了前所未有的水平!
Text-to-image(T2I)扩散模型在生成高清晰度图像方面表现卓越,这要归功于其在大规模图像-文本对上的预训练。
这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务?
最近,字节跳动和复旦大学的团队提出了扩散模型来处理视觉任务。
论文地址:https://arxiv.org/abs/2312.14733
开源项目:https://github.com/fudan-zvg/meta-prompts
团队的关键洞察是将可学习的元提示引入预训练的扩散模型中,以提取适用于特定感知任务的特征。
技术介绍
团队将text-to-image扩散模型作为特征提取器应用于视觉感知任务中。
首先,输入图像经过VQVAE编码器压缩,分辨率降低为原大小的1/8,生成latent space特征表示。值得注意的是,VQVAE编码器参数固定,不参与后续训练。
下一步,将未添加噪声的数据送入UNet进行特征提取。为了更好地适应不同任务,UNet同时接收调制的时间步嵌入和多个元提示,以生成与形状一致的特征。
在整个过程中,为了增强特征表达,该方法进行了步的recurrent refinement。这使得UNet内不同层的特征能够更好地交互融合。在第次循环中,UNet的参数由特定的可学习的时间调制特征调节。
最终,UNet生成的多尺度特征输入到专门为目标视觉任务设计的解码器中。
可学习的元提示(meta prompts)设计
Stable diffusion model采用UNet架构,通过交叉注意力将文本提示融入图像特征中,实现了文生图。这种整合确保了图像生成在语境和语义上的准确性。
然而,视觉感知任务的多样性超出了这一范畴,因为图像理解面临着不同的挑战,往往缺乏文本信息作为指导,使得以文本驱动的方法有时显得不切实际。
为应对这一挑战,技术团队的方法采用了更为多样的策略——不依赖外部文本提示,而是设计了一种内部的可学习元提示,称为meta prompts,这些meta prompts被集成到扩散模型中,以适应感知任务。
Meta prompts以矩阵 的形式表示,其中表示meta prompts的数量,表示维度。具备meta prompts的感知扩散模型避免了对外部文本提示的需求,如数据集类别标签或图像标题,也无需预训练的文本编码器来生成最终的文本提示。
Meta prompts可以根据目标任务和数据集进行端到端的训练,从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息。比如:
- 在语义分割任务中,meta prompts有效地展示了对类别的识别能力,相同的meta prompts倾向于激活同一类别的特征。
- 在深度估计任务中,meta prompts表现出对深度的感知能力,激活值随深度变化,使prompts能够集中关注一致距离的物体。
- 在姿态估计中,meta prompts展现出一套不同的能力,特别是关键点的感知,这有助于人体姿态检测。
这些定性结果共同突显了技术团队提出的meta prompts在各种任务中对任务相关激活能力的有效性。
作为文本提示的替代品,meta prompts很好地填补了了text-to-image扩散模型与视觉感知任务之间的沟壑。
基于元提示的特征重组
扩散模型通过其固有的设计,在去噪UNet中生成多尺度特征,这些特征在接近输出层时聚焦于更细致、低级的细节信息。
虽然这种低级细节对于强调纹理和细粒度的任务来说足够,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。
因此,不仅需要生成丰富的特征,确定这些多尺度特征的哪种组合方式可以为当前任务提供最佳表征也非常重要。
这就是meta prompts的作用所在——
这些prompts在训练过程中保存了与所使用数据集特定相关的上下文知识。这种上下文知识使meta prompts能够充当特征重组的过滤器,引导特征选取过程,从UNet产生的众多特征中筛选出与任务最相关的特征。
团队使用点积的方式将UNet的多尺度特征的丰富性与meta prompts的任务适应性结合起来。
考虑多尺度特征,其中每个。和表示特征图的高度和宽度。Meta prompts 。每个尺度上重排的特征的计算为:
最后,这些经过meta prompts过滤的特征随后输入到特定任务的解码器中。
基于可学习的时间调制特征的recurrent refinement
在扩散模型中,添加噪声然后多步去噪的迭代过程构成了图像生成的框架。
受此机制的启发,技术团队为视觉感知任务设计了一个简单的recurrent refinement过程——没有向输出特征中添加噪声,而是直接将UNet的输出特征循环输入到UNet中。
同时为了解决随着模型通过循环,输入特征的分布会发生变化但UNet的参数保持不变的不一致的问题,技术团队对于每个循环引入了可学习的独特的timestep embeddings,以调制UNet的参数。
这确保了网络对于不同步骤中输入特征的变化性保持适应性和响应性,优化了特征提取过程,并增强了模型在视觉识别任务中的性能。
结果显示,该方法在多个感知任务数据集上都取得了最优。
应用落地和展望
该文章提出的方法和技术有广泛的应用前景,可以在多个领域内推动技术的发展和创新:
- 视觉感知任务的改进:该研究能够提升各种视觉感知任务的性能,如图像分割、深度估计和姿态估计。这些改进可应用于自动驾驶、医学影像分析、机器人视觉系统等领域。
- 增强的计算机视觉模型:所提出的技术可以使计算机视觉模型在处理复杂场景时更加准确和高效,特别是在缺乏明确文本描述的情况下。这对于图像内容理解等应用尤为重要。
- 跨领域应用:该研究的方法和发现可以激励跨领域的研究和应用,比如在艺术创作、虚拟现实、增强现实中,用于提高图像和视频的质量和互动性。
- 长期展望:随着技术的进步,这些方法可能会进一步完善,带来更先进的图像生成和内容理解技术。
团队介绍
智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中,欢迎点击「阅读原文」查看。
以上是字节复旦团队创新的「元提示」策略提升了扩散模型图像理解的性能,达到了前所未有的水平!的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉
