苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率-人工智能-PHP中文网

首页

科技周边

人工智能

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 30, 2023 pm 07:29 PM

产业 matryoshka diffusion models mdm

习惯了 Stable Diffusion，如今终于又迎来一个俄罗斯套娃式（Matryoshka）Diffusion 模型，还是苹果做的。

在生成式 AI 时代，扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战，这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构，这使得优化更困难，消耗的算力和内存也更多。

怎么办呢？最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超过 512×512 分辨率的效果，并且生成质量落后于主流的级联或 latent 方法。

我们以 OpenAI DALL-E 2、谷歌 IMAGEN 和英伟达 eDiffI 为例，它们通过学习一个低分辨率模型和多个超分辨率扩散模型来节省算力，其中每个组件都单独训练。另一方面，latent 扩散模型（LDM）仅学习低分辨率扩散模型，并依赖单独训练的高分辨率自编码器。对于这两种方案，多阶段式 pipeline 使训练与推理复杂化，从而往往需要精心调整或进行超参。

本文中，研究者提出了俄罗斯套娃式扩散模型（Matryoshka Diffusion Models，MDM）它是用于端到端高分辨率图像生成的全新扩散模型。代码很快将释出。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

论文地址：https://arxiv.org/pdf/2310.15111.pdf

该研究提出的主要观点是将低分辨率扩散过程作为高分辨率生成的一部分，通过使用嵌套 UNet 架构在多个分辨率上执行联合扩散过程。

该研究发现：MDM 与嵌套 UNet 架构一起实现了 1）多分辨率损失：大大提高了高分辨率输入去噪的收敛速度；2）高效的渐进式训练计划，从训练低分辨率扩散模型开始，按照计划逐步添加高分辨率输入和输出。实验结果表明，多分辨率损失与渐进式训练相结合可以让训练成本和模型质量获得更好的平衡。

该研究在类条件图像生成以及文本条件图像和视频生成方面评估了 MDM。MDM 让训练高分辨率模型无需使用级联或潜在扩散（latent diffusion）。消融研究表明，多分辨率损失和渐进训练都极大地提高了训练效率和质量。

我们来欣赏以下 MDM 生成的图片和视频。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

方法概览

研究者介绍称，MDM 扩散模型在高分辨率中进行端到端训练，同时利用层级结构的数据形成。MDM 首先在扩散空间中泛化了标准扩散模型，然后提出了专用的嵌套架构和训练流程。

首先来看如何在扩展空间对标准扩散模型进行泛化。

与级联或 latent 方法的不同之处在于，MDM 通过在一个扩展空间中引入多分辨率扩散过程，学得了具有层级结构的单个扩散过程。具体如下图 2 所示。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

具体来讲，给定一个数据点 x ∈ R^N，研究者定义了与时间相关的隐变量 z_t = z_t^1 , . . . , z_t^R ∈ R^N_1+...NR。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

研究者表示，在扩展空间中进行扩散建模有以下两点优点。其一，我们在推理期间通常关心全分辨率输出 z_t^R，那么所有其他中等分辨率被看作是额外的隐变量 z_t^r，增加了建模分布的复杂度。其二，多分辨率依赖性为跨 z_t^r 共享权重和计算提供了机会，从而以更高效的方式重新分配计算，并实现高效训练和推理。

接下来看嵌套架构（NestedUNet）如何工作。

与典型的扩散模型类似，研究者使用 UNet 网络结构来实现 MDM，其中并行使用残差连接和计算块以保留细粒度的输入信息。这里的计算块包含多层卷积和自注意力层。NestedUNet 与标准 UNet 的代码分别如下。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

除了相较于其他层级方法的简单性，NestedUNet 允许以最高效的方式对计算进行分配。如下图 3 所示，研究者早期探索发现，当以最低分辨率分配大部分参数和计算时，MDM 实现了明显更好的扩展性。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

最后是学习。

研究者使用常规去噪目标在多个分辨率下训练 MDM，如下公式 (3) 所示。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

这里用到了渐进式训练。研究者按照上述公式 (3) 直接对 MDM 进行端到端训练，并展示出了比原始基线方法更好的收敛性。他们发现，使用类似于 GAN 论文中提出的简单渐进式训练方法，极大地加速了高分辨率模型的训练。

这一训练方法从一开始就避免了高成本的高分辨率训练，加速了整体收敛。不仅如此，他们还合并了混合分辨率训练，该训练方法在单个 batch 中同时训练具有不同最终分辨率的样本。

实验及结果

MDM 是一种通用技术，适用于可以逐步压缩输入维度的任何问题。MDM 与基线方法的比较如下图 4 所示。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

表 1 给出了在 ImageNet（FID-50K）和 COCO（FID-30K）上的比较结果。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

下图 5、6、7 展示了 MDM 在图像生成（图 5）、文本到图像（图 6）和文本到视频（图 7）方面的结果。尽管是在相对较小的数据集上进行训练的，但 MDM 仍显示出生成高分辨率图像和视频的强大零样本（zero-shot）能力。

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

感兴趣的读者可以阅读论文原文，了解更多研究内容。

以上是苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7523

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

苹果文生图大模型亮相：俄罗斯套娃式扩散，支持1024x1024分辨率

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题