美图AI局部重绘技术大揭秘!想怎么改,就怎么改!美图局部重绘让你随心所欲
最近,“AI扩图”功能以其突如其来的扩大效果引发了轰动,其滑稽而又有趣的自动填充结果频频走红,在网络上掀起了热潮。用户们积极尝试这一功能,其180度的巨大转变也让人们感叹不可思议,话题热度持续攀升。
在引发笑声和热情的同时,也意味着人们不断关注着AI是否能够真正帮助他们解决现实问题并改进用户体验。随着AIGC技术的迅猛发展,AI应用场景正在加速实现落地,这预示着我们将迎来一场全新的生产力变革。
近日,美图公司旗下WHEE等产品上线AI扩图及AI改图功能,只需简单的提示性输入,用户就可以任意修改图像、移除画面元素、扩充画面,凭借便捷的操作与惊艳的效果,大大降低工具使用门槛,为用户带来高效、优质的图像创作体验。
MiracleVision(奇想智能)消除结果
MiracleVision(奇想智能)替换效果前
MiracleVision(奇想智能)替换效果后
MiracleVision(奇想智能)AI改图效果
强大模型能力,让图像编辑随心所欲
美图AI局部重绘模型基于扩散模型(Diffision Model)技术构建了完整的inpaint & outpaint模型框架,将内部区域重绘、前景目标消除以及外部区域扩展等任务统一到同一个方案中进行解决,并针对一些特定的效果问题做了专门的优化设计。
MiracleVision(奇想智能)模型属于文生图模型,虽然可以通过改造第一卷积层,并将unet整体微调的方式,使其适应inpaint任务,但这样需要修改unet原有的权重,在训练数据量不足时可能会导致模型性能的下降。
因此,为了充分利用MiracleVision(奇想智能)已有的生成能力,团队在局部重绘模型中不对MiracleVision(奇想智能)的unet模型进行直接微调,而是使用controlnet的方式增加一个mask的输入分支进行控制。
同时,为了节约训练成本,加快推理速度,使用压缩后的controlnet模块进行训练,尽可能地减少计算量。在训练的过程中,unet模型的参数会被固定,只有controlnet模块会进行更新,最终使整个模型获得inpaint的能力。
美图AI局部重绘模型架构图
outpaint任务则是crop任务的反向操作。crop任务是沿着图像边界对原图像进行剪裁,只保留需要的部分,是一种图像内容的减法操作;而outpiant任务则是沿着图像边界向外进行扩展,借助模型的生成能力来凭空创造出原本不存在的内容,是一种图像内容的加法操作。
本质上,outpaint任务也可以看作是一种特殊的inpaint任务,只不过mask区域位于图像的外围。
MiracleVision(奇想智能)AI扩图效果
由于outpaint任务中的mask区域只能从图像内部获取引导信息,其他的方向上都是图像边界,因此生成的内容更加具有随机性,会更加的发散。为了填补图像外围的空白区域,同时保证画面拓展的准确性,团队依托场景识别算法对图像风格及内容进行推断,并充分利用图像内容的相关性,通过在扩展边缘处镜像复制原图中的像素并叠加随机噪声,为模型提供适合的初始先验,从而保证生成内容的合理性,并使得边界过渡更加平滑。
通过多种训练策略,自由控制物体生成与消除
一般的扩散模型在执行inpaint任务时更擅长替换而不是消除,当需要消除某一目标时,模型很容易在mask区域中绘制出一些原本不存在的新前景目标,特别是当mask区域的面积比较大的时候这一现象尤为明显,即使这些目标并没有出现在prompt中。究其原因,主要是以下3个方面:
1.训练集的prompt中,一般只描述了图像中有什么,而不会描述图像中没有什么,因此让训练后的模型根据提示生成某一目标很容易,但是不让它生成目标却很难。即便有Classifier-Free Guidance策略,可以通过把不想要的物体添加到负词中的方式来抑制该目标的生成,但始终无法将所有可能的目标全部写到负词中,因此模型还是会倾向于生成一些意想不到的目标;
2.从训练数据的分布来看,由于大规模图像训练集中的绝大部分图像都是由前景和背景组合而成的,纯背景的图像占比较小,这意味着扩散模型在训练时就已经学习到了一种潜在的规律,即一幅图像中大概率存在着某一个目标前景(即使prompt中并没有提到它),这也导致模型在执行inpaint任务时更倾向于在mask区域中生成些什么,从而使输出图像更接近于训练时的分布;
3.待填充的mask区域的形状有时也会包含一定的语义信息,比如在没有其他引导的情况下,模型会更倾向于在一个形状为猫的mask区域内填充一只新的猫,从而导致消除任务失败。
为了使MiracleVision(奇想智能)同时具备目标生成以及目标消除的能力,团队采用了多任务的训练策略:
1.在训练阶段,当mask区域落在纹理较少的纯背景区域上时,增加一个特定的prompt关键词作为触发引导词,并在模型推理阶段,将这个关键词作为正向引导词加入到prompt embedding 中,促使模型更多地生成背景区域。
2.由于纯背景图像在整个训练集中占比较小,为了提高其对于训练的贡献程度,在每个训练batch中,手动采样一定比例的背景图像加入到训练,使背景图像在训练样本中的占比总体保持稳定。
3.为了降低模型对于mask形状的语义依赖,在训练阶段还会随机生成各种不同形态mask,增加mask形状的多样性。
高精度纹理生成,融合更自然
由于训练集中高清的纹理数据只占全部训练数据的一小部分,因此在执行inpaint任务时,通常不会生成纹理非常丰富的结果,导致在原图纹理比较丰富的场景中,容易出现融合不自然、存在边界感的情况。
为了解决这个问题,团队基于自研纹理细节模型作为引导模型,以此来辅助MiracleVision(奇想智能)提高生成质量,抑制过拟合,使得生成区域和原图的其他区域之间能够更好地贴合在一起。
原图v.s未增加纹理细节v.sMiracleVision扩图效果
速度更快、效果更优、交互更高效!
扩散模型类方案在推理时通常需要进行多步逆扩散过程,导致单张图片的处理耗时过长。为了在保持生成质量的同时优化用户体验,美图影像研究院(MT Lab)团队为AI局部重绘技术打造了专项调优方案,最终达到性能与效果的最佳平衡。
首先,将MiracleVision(奇想智能)前后处理与推理过程中大量的矩阵计算,尽可能地移植到GPU上并行计算,从而有效地加快了计算速度,并减少CPU端的负载。同时,在组图的过程中,尽可能的对layer进行fuse,使用FlashAttention来降低显存占用,提升推理性能,并对Kernel实现进行Tuning,针对NVIDIA不同的显卡最大化GPU算力使用。
除此之外,依托自研的模型参数量化方法,将MiracleVision量化至8bit而不明显损失精度。由于不同的GPU显卡对8bit量化的支持存在差异性,因此创新性采用混合精度策略,在不同的服务器资源环境下自适应地选取最优算子,从而实现总体加速的最优解。
而对于分辨率较高的用户输入图像,由于受限于服务器资源与时间成本,很难在原始分辨率情况下直接进行推理。对此,团队通过先压缩图像分辨率至合适的大小,再基于MiracleVision(奇想智能)进行推理,其后使用超分算法复原图像至初始分辨率下,再与原图进行图像融合,从而既保持生成图像的清晰效果,又节约推理过程中的显存占用和执行时间。
美图与三星深度合作,以AI打造手机图像编辑新体验
1月25日,三星电子举办Galaxy S24系列中国新品发布会。美图公司深化与三星合作,为三星新品Galaxy S24系列手机相册打造全新的AI图像编辑体验,美图影像研究院(MT Lab)自主研发的生成式编辑——AI扩图与AI改图功能也已正式上线,助力手机图像编辑创作打开新空间。
通过AI改图功能,用户只需长按要编辑的图像,即可轻松移动、消除或调整图像大小。此外,在画面水平线不垂直时,AI扩图功能可以在用户调整角度后,智能填充照片的缺失区域,修正画面构图。
基于MiracleVision(奇想智能)带来的AI功能,美图不仅助力用户在手机端轻松实现专业级的编辑效果,创造出更具个性的照片作品,也将持续推动和提升整个手机行业的AI图像处理能力。
依托美图影像研究院(MT Lab)强大的技术能力,MiracleVision(奇想智能)在不到半年时间已经迭代至4.0版本。未来,美图将持续致力于提升在电商、广告、游戏等行业的用户体验,助力不同场景的从业者工作流提效。
以上是美图AI局部重绘技术大揭秘!想怎么改,就怎么改!美图局部重绘让你随心所欲的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。天啊噜,AI真的成精了。最近,AI生图真假难辨这事儿,闹得那叫一个沸沸扬扬。(查看详情,请移步:AI在用|三步速成AI美女,又被AI一秒打回原形)除了火爆全网的AI谷歌小姐姐,社交平台上又冒出了形形色色的FLUX生成
