「场景控制传送门:四合一物体传送,上交&蚂蚁出品」
在常见的图像编辑操作中,图像合成是指将一张图片的前景物体与另一张背景图片结合,生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上,如下图所示

图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用
通过简单的剪切粘贴得到的合成图可能会存在很多问题。在之前的研究工作中,图像合成衍生出不同的子任务,分别解决不同的子问题。举例来说,图像混合旨在解决前景和背景之间不自然的边界。图像和谐化旨在调整前景的光照使其与背景和谐。视角调整旨在调整前景的姿态,使其与背景匹配。物体放置旨在为前景物体预测合适的位置、大小、透视角度。阴影生成旨在为前景物体在背景上生成合理的阴影
根据下图所示,之前的研究工作以串行或并行的方式执行上述子任务,以获得逼真自然的合成图像。在串行框架中,我们可以根据实际需求有选择性地执行部分子任务
在并行框架下,目前流行的方法是使用扩散模型。它接受一张带有前景边界框的背景图片和一张前景物体图片作为输入,直接生成最终的合成图像。这样可以使得前景物体与背景图片无缝融合,光照和阴影效果合理,姿态与背景相适应
这个并行框架相当于同时执行多个子任务,无法有选择性地执行部分子任务,不具有可控性,可能会对前景物体的姿态或者颜色带来不必要或者不合理的改变
需要重写的是:

为了增强并行框架的可控性并有选择性地执行部分子任务,我们提出了可控图像合成模型 Controllable Image Composition (ControlCom)。如下图所示,我们使用一个指示向量作为扩散模型的条件信息,以控制合成图中前景物体的属性。指示向量是一个二维的二值向量,其中每个维度分别控制是否调整前景物体的光照属性和姿态属性,其中1表示调整,0表示保留
具体来说,(0,0)表示既不改变前景光照,也不改变前景姿态,只是将物体无缝融入背景图片,相当于图像混合(image blending)。(1,0)表示只改变前景光照使其与背景和谐,保留前景姿态,相当于图像和谐化(image harmonization)。(0,1)表示只改变前景姿态使其与背景匹配,保留前景光照,相当于视角调整(view synthesis)。(1,1)表示同时改变前景的光照和姿态,相当于现在的不可控并行图像合成
我们将四种任务纳入同一个框架,通过指示向量实现了四合一物体传送门的功能,可以将物体传送到场景中的指定位置。这项工作是由上海交通大学和蚂蚁集团合作完成的,代码和模型即将开源

请点击以下链接查看论文:https://arxiv.org/abs/2308.10040
代码模型链接:https://github.com/bcmi/ControlCom-Image-Composition
在下面的图中,我们展示了可控图像合成的功能

左边一列,前景物体的姿态原本就和背景图片适配,用户可能希望保留前景物体的姿态。之前的方法 PbE [1]、ObjectStitch [2] 会对前景物体的姿态做出不必要且不可控的改变。我们方法的 (1,0) 版本能够保留前景物体的姿态,将前景物体无缝融入背景图片且光照和谐
右侧的一列中,前景物体的光照本应与背景光照相同。以往的方法可能会导致前景物体的颜色发生意外的变化,例如车辆和服装的颜色。我们的方法(版本0.1)能够保留前景物体的颜色,并同时调整其姿态,使其自然地融入背景图片中

接下来,我们展示更多我们方法四个版本 (0,0),(1,0),(0,1),(1,1) 的结果。可以看出在使用不同指示向量的情况下,我们的方法能够有选择性地调整前景物体的部分属性,有效控制合成图的效果,满足用户不同的需求。

我们需要重新写的内容是:能够实现四种功能的模型结构是什么样的呢?我们的方法采用了以下模型结构,模型的输入包括带有前景边界框的背景图片和前景物体图片,将前景物体的特征和指示向量结合到扩散模型中
我们重新提取了前景物体的全局特征和局部特征,并先融合全局特征,再融合局部特征。在局部融合的过程中,我们使用了对齐的前景特征图进行特征调制,以实现更好的细节保留。同时,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物体的属性
我们使用预训练的稳定扩散算法,基于OpenImage的190万张图片来训练模型。为了同时训练四个子任务,我们设计了一套数据处理和增强的流程。有关数据和训练的详细信息,请参阅论文

我们在COCOEE数据集和自己构建的数据集上进行了测试。由于之前的方法只能实现不可控的图像合成,所以我们与(1,1)版本和之前的方法进行了比较。比较结果如下图所示,PCTNet是一种图像和谐化方法,能够保留物体的细节,但不能调整前景的姿态,也不能补全前景物体。其他方法能够生成相同种类的物体,但在细节保留方面效果较差,例如衣服的款式、杯子的纹理、鸟的羽毛颜色等等
我们的方法相比之下能够更好地保留前景物体的细节,补全不完整的前景物体,并且调整前景物体的光照、姿势以及与背景的适配
这项工作是对可控图像合成的首次尝试,任务非常困难,仍然存在许多不足之处,模型的表现不够稳定和鲁棒。此外,除了光照和姿态之外,前景物体的属性还可以进一步细化,如何实现更细粒度的可控图像合成是一个更具挑战性的任务
为了保持原意不变,需要重写的内容是:参考文献
杨,古,张,张,陈,孙,陈,文(2023年)。以示例为基础的图像编辑与扩散模型。在CVPR中
[2] 宋永忠,张智,林志龙,科恩,S. D.,普莱斯,B. L.,张静,金素英,阿里亚加,D. G. 2023。ObjectStitch:生成式物体合成。在CVPR中
以上是「场景控制传送门:四合一物体传送,上交&蚂蚁出品」的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。
