腾讯混元大模型再度升级，文生图能力震撼发布，全面实测解析-人工智能-PHP中文网

首页

科技周边

人工智能

腾讯混元大模型再度升级，文生图能力震撼发布，全面实测解析

王林

Oct 26, 2023 pm 09:13 PM

产业混元大模型文生图大模型

2023 年，大模型的落地按下加速键，文生图便是最火热的应用方向之一。

自从 Stable Diffusion 诞生以来，海内外的文生图大模型不断涌现，一时有「神仙打架」之感。每一次技术迭代，都带来了模型生成效果和速度的飞速提升。

就在今天，腾讯混元大模型也宣布了最新进展：文生图能力正式上线。

一上手试用，我们就看到了混元大模型对于博大精深的中餐文化的理解。这里选取了让很多大模型犯难的「蚂蚁上树」，但混元轻松生成：

腾讯混元大模型再度升级，文生图能力震撼发布，全面实测解析

问题来了，现在的文生图大模型这么卷，混元大模型还有没有其他特别的优势？

据官方介绍，如果从算法、模型方面来讲，当前文生图大模型还存在一些挑战，比如语义理解不够精准、生成图片结构不合理、画面细节不够和质感不高等问题。

腾讯很早就开始在广告场景进行 AI 自动生成图像的探索，相关的积累不可谓不深厚。此次混元大模型升级的文生图能力，恰恰希望解决「语义、内容、质感」这三点难题。

据介绍，相比其他大模型，腾讯混元的文生图在人像真实感、场景真实感上有比较明显的优势，同时，在中国风景、动漫游戏等场景等生成上有较好的表现。

上手实测：混元文生图，有什么不一样？

做好「文生图」这件事，对「文」的充分理解至关重要。

在语义理解方面，混元文生图模型采用了中英文双语细粒度的模型，同时基于中英文双语建模实现双语理解，且通过优化算法提升了模型对细节的感知能力与生成效果。

在此之前，像 Stable Diffusion 这样的热门模型虽然支持一定程度的中文，但其核心数据集 LAION-5B 仍以西方化内容为主，对中国的语言、美食、文化、习俗都理解不够。

而混元文生图模型是一个中文原生的文生图模型，无论用户输入的中文诗句还是成语，都可以直接要求其创作画作。

在内容合理性方面，混元文生图通过增强算法模型的图像二维空间位置感知能力，并将人体骨架和人手结构等先验信息引入到生成过程中，让生成的图像结构更合理，改善了 AI 生成人体结构和手部不合理的问题。

在画面质感方面，混元文生图基于多模型融合的方法，提升生成质感。经过优化之后，混元文生图的人像模型（发丝、皱纹等）效果提升了 30%，场景模型（草木、波纹等）效果提升了 25%。

这三方面的技术优势，对于混元大模型文生图产品体验的提升是显而易见的。

为了验证上述能力，本站设置了一些题目，第一时间对混元大模型进行了摸底测试。

鉴于混元是中文原生模型，自然也比其他同类产品更懂「古代中国的语言」，我们首先让它根据古诗词进行绘画。

我们选取一句非常有意境的古诗「醉后不知天在水，满船清梦压星河」来测试，看混元大模型能否生成极具画面感的图。

在《泊船瓜洲》这首诗中，一句「春风又绿江南岸，明月何时照我还」，写出了无数游子的乡愁。混元的生成结果，提取出「春光」、「水岸」、「明月」等意象进行有机组合，让人看到之后仿佛置身诗句场景之中：

然后是有趣的「中国菜绘画」环节，来一道「鱼香肉丝」经典考题吧：

从让人 san 值狂掉的中餐绘画，到现在看图下饭的水准，我们也能感受到文生图技术的不断进化。

接下来看看在业界公认的「人像真实感」难题上，混元做得如何：

我们知道最初 Midjourney 爆火，就是因为下面这张情侣照片，让人无法分辨这竟然无 AI 生成的。

^{用 midjourney v5 生成的情侣图}

现在，我们考察一下混元大模型生成「照骗」的能力。使用的 Prompt 是：

你觉得真实感如何？在我们看来，Prompt 中提到的细节拉满。

这也就是腾讯重点强调的：混元大模型通过优化算法提升了对细节的感知能力与生成效果。这种能力，在很多具体的场景中才得以体现。

例如在动画场景中，生成「一头小鹿在森林中奔跑、带动落叶飞起、月亮很亮很大、小鸟在空中飞翔，氛围感，CG 风格，侧面视角」。

是不是特别像是小时候看的动画中的画面？

此外，在动漫创作中，文生图应用潜力巨大。

我们给到混元大模型的 Prompt 是「生成 3D，动漫风格，1 个女孩，金色头发，微笑，短发，城市背景」：

你觉得生成效果如何？是不是可以直接拿来当壁纸了？

文生图背后，有哪些自研技术？

工欲善其事，必先利其器，对于大模型同样如此。

我们了解到，除了创新模型算法，腾讯混元大模型实现这样接中文地气的文生图效果，其背后还离不开高质量的图文匹配数据、自研的机器学习框架以及强大的算力基础设施。

腾讯混元大模型已经形成了从模型算法到机器学习框架再到 AI 基础设施的全链路自研技术路径。多层次的技术沉淀，意味着大模型的进化需要一步一个脚印，从实践出发，在实践中提升。

首先来看支撑模型训练的数据工程。

对于任何 AI 特别是大模型而言，数据都是不可或缺的三大要素之一。大模型文生图功能亦是如此，图文数据尤其是图文之间的匹配数据对生成效果的影响举足轻重。

但是网络上已有数据并不是都能拿来即用的，其中很大的问题是文字对图片的描述不一定准确，这就导致大多数图文匹配数据质量比较差。如果拿来用，即使训练时间很长，模型生成效果依然达不到预期，也会影响生成质量的稳定性和后续的迭代效率。

因此，提升图文数据质量成为保证文生图效果的「第一道关」。这时候往往需要通过工程化的方式提升数据质量，支撑模型训练、优化和升级，构筑算法模型的护城河。

面对图文匹配数据问题，腾讯混元文生图团队的应对策略是这样的：首先细粒度地完善中文 prompt，提升图文相关性，最大化数据质量；然后采取训练数据分层、分级的策略，逐步优化模型，最大化数据效果；最后建设数据飞轮，它是大模型快速迭代的关键。团队基于线上用户使用大模型的反馈，自动化构建训练数据，加快模型迭代，最大化数据效率。

数据质量、效果和效率提上去了，这就为良好的文生图效果打下了基础。而接下来要讲的机器学习框架同样重要。

强大的机器学习框架或平台会极大地提升开发者构建、训练和部署模型的速度和效率。腾讯针对大模型训练和推理场景，自研了 Angel 机器学习平台，主要包括负责训练的 AngelPTM 和负责推理的 AngelHCF 两大部分。

其中 AngelPTM 采用 ZeRO-Cache 优化策略，成为超大模型训练利器，它通过存储管理扩大单机模型容量，通过多流异步提高资源利用率，通过显存管理提高显存效率。此外利用 4D 并行提高可用显存上限，减少千卡通信压力，释放计算潜能。自动续训机制支持千卡故障自动容错，减少中断时间。模型训练情况也在实时监控之下，协同算法优化模型训练方向。

目前，AngelPTM 基于业界首创的 ZeRO-Cache 机制 + 4D 并行实现了千亿混元基座模型的高速训练，训练速度相比主流开源框架（DeepSpeed-Chat）提升 1 倍。

^{ZeRO-Cache 概图。}

AngelHCF 主要从定制多样化服务策略、并行策略、框架加速（覆盖常用 GPU 加速方法）、模型压缩（支持业界常用压缩方法）和高效模型 Debug 能力五个层面提升大模型的推理性能。推理速度相比业界主流框架（FasterTransformer）提升 1.3 倍。

腾讯表示，其 Angel 机器学习平台具备了领先性能，能够帮助提供更好的基建体系，助力大模型们高速运行。这使得混元大模型生成高质图片的同时，生成速度也大大改进。

拥有了高质量的数据、高效的机器学习框架，大模型的持续运行还面临着算力层面的考验。毕竟，大模型时代，算力为王。

腾讯混元文生图功能离不开腾讯云提供的强大算力基础设施。2023 年 4 月，腾讯云发布新一代 HCC 高性能计算集群，采用最新一代星星海自研服务器，并基于自研网络和存储架构，实现了 3.2T 超高互联带宽、TB 级吞吐能力和千万级 IOPS。新一代集群算力性能较前代提升了 3 倍，较传统算力集群方案提升 12 倍以上。

夯实底层硬件的同时，上层软件能力也要齐头并进。新一代 HCC 集群集成了腾讯云自研的 TACO 训练加速引擎，从网络协议、通信策略、AI 框架、模型编译层面做了大量系统级优化。这套全生态的训练加速方案不仅可以帮助客户降低 AI 优化门槛，提升 AI 训练性能，还使训练调优和算力成本大大降低。

看起来，制约大模型的三大要素算法、数据和算力，在腾讯混元大模型这里都不成问题了。自然而然，文生图质量和效果也得到了保障。

效果「以假乱真」，

文生图能力已嵌入腾讯广告场景

今天我们看到的混元大模型文生图能力，并非一蹴而就，而是一个实实在在的演进过程。

在上个月举行的 2023 腾讯全球数字生态大会上，腾讯混元大模型正式亮相。腾讯集团副总裁蒋杰当时表示，混元永远在路上。腾讯会一直演进混元的能力，并希望每个月都会给大家带来惊喜。

目前，腾讯已有 180 个内部业务接入混元大模型，包括包括腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。同时来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户也通过腾讯云调用腾讯混元 API，应用领域涉及智能问答、内容创作、数据分析、代码助手等多个场景。

此次开放的文生图能力便是腾讯混元大模型带给我们的最大惊喜，展示其在图像自动生成领域的领先能力。当然，腾讯混元文生图也在逐渐进化中，后续会开发更多文生图相关以及图生图功能。我们可以狠狠期待一波了。

目前，混元文生图能力已经嵌入到了腾讯广告场景中，比如生成商品广告或广告配图。在广告业务下的多轮测评中，腾讯混元文生图的案例优秀率和广告主采纳率分别达到 86% 和 26%，均高于同类模型。

我们先来看下面这个示例，要求混元大模型生成一个酒店房间。从效果来看，升级后混元文生图效果明显更好，设计感、品质感提升很大，细节更加丰富。即使与 Midjourney 比较一番，效果也不相上下。

人物类生成场景也有类似的效果。升级后混元生成的人像真实感更强，比如面部肤色、皱纹等细节。

广告场景之外，腾讯内部还在不断探索其他文生图的需求场景，比如游戏场景中生成游戏元素和游戏角色、内容场景中生成小说配图、插图，云业务场景中将混元能力开放给不同行业的客户。

大浪淘沙，再强悍的模型，也要让更多人用上并持续获得反馈，才有可能百尺竿头更进一步。

可以预见，未来腾讯产品中将迎来混元文生图能力的大爆发，用户也将体验更多 AIGC 带来的魅力。

以上是腾讯混元大模型再度升级，文生图能力震撼发布，全面实测解析的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7549

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

腾讯混元大模型再度升级，文生图能力震撼发布，全面实测解析

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题