数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技
打开一个数字人,里面全是生成式 AI。
9月23日晚上,杭州亚运会的开幕式上,点燃主火炬的环节展现了上亿线上数字火炬手的「小火苗」聚集在钱塘江上,形成了一个数字人形象。接着,数字人火炬手和现场的第六棒火炬手一同走到火炬台前,共同点燃了主火炬
作为开幕式的核心创意,数实互联的火炬点燃形式冲上了热搜,引发了人们的重点关注。 重写后的内容:作为开幕式的核心创意,数实互联的火炬点燃方式引起了热议,吸引了人们的关注
数字人点火是一个前所未有的创举,上亿人参与其中,涉及了大量先进且复杂的技术。其中最重要的问题之一是如何让数字人「动起来」。可以明显看出,随着生成式人工智能和大型模型的快速发展,数字人研究也出现了更多新的变化
在 10 月初即将举行的全球计算机视觉顶会 ICCV 2023 上,我们关注到一篇生成 3D 数字人运动研究被大会收录。相关论文题为《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大学、蚂蚁集团联合发布。
根据介绍,这项研究在一定程度上解决了数字人远距离合成复杂运动的问题,能够实现原有模型或路径规划无法实现的效果。数字人驱动相关的技术还被应用于亚运会的1亿数字人线上传递
生成式 AI 驱动,让数字人动起来
很多时候,我们需要在给定的 3D 场景中合成 3D 人体运动,使虚拟人能够自然地在场景中漫步并与物体交互,这种效果在 AR/VR、电影制作和视频游戏中都存在多种应用。
在这里,传统的角色控制运动生成方法旨在由用户的控制信号引导生成短期或重复的运动,新研究则专注于在给定起始位置和目标对象模型的情况下生成更加长时间的人机交互内容。
这种思路虽然效果更好,但显然挑战更大。首先,人与物体的交互应该是连贯的,这需要对人与物体之间的远程交互进行建模的能力。其次,在内容生成的背景下,生成模型应该能够合成大小不同的运动,因为真人存在多种接近目标对象并与之交互的方式。

在生成数字人动作的方法上,现有的合成方法大致可分为在线生成和离线生成。大多数在线方法侧重于角色的实时控制。给定一个目标对象,他们通常使用自回归模型通过反馈预测来循环生成未来的运动。尽管这种方法已广泛用于视频游戏等交互场景,但其质量对于长期生成来说还难以令人满意。

为了提高运动质量,近期的一些离线方法开始采用多级框架,首先生成轨迹,然后合成运动。尽管这种策略能够产生合理的路径,但路径的多样性却是有限的
在这项新研究中,作者提出了一种全新的离线方法,用于综合长期且多样化的人与物体之间的交互。该方法的创新之处在于采用了分层生成策略。首先,该策略会预测一系列的里程碑,然后再生成这些里程碑之间的人体动作
具体来说,给定起始位置和目标对象,作者设计了一个里程碑生成模块来合成沿着运动轨迹的一组节点,每个里程碑对局部姿势进行编码并指示人体运动过程中的过渡点。基于这些里程碑,算法采用运动生成模块来生成完整的运动序列。由于这些里程碑的存在,我们可以将长序列的生成简化为合成几个短运动序列。
每个里程碑的局部姿态是由考虑全局依赖性的 transformer 模型生成的,以产生时间一致的结果,从而进一步促进相干运动
除了分层生成框架之外,研究人员还进一步利用扩散模型来合成人与物体的交互。此前的一些运动合成扩散模型结合了 transformer 和去噪扩散概率模型(DDPM)。
值得一提的是,由于运动序列较长,直接将它们应用到新设置中需要大量的计算,可能导致 GPU 内存爆炸。由于新的分层生成框架将长期生成转换为多个短序列的合成,因此所需的 GPU 内存减少到了与短期运动生成相同的水平。
因此,研究人员可以有效地使用Transformer DDPM来合成长期运动序列,从而提高生成质量
为了达到这个目的,研究人员设计了一个分层生成框架,如下图所示
首先,他们使用GoalNet来预测对象上的交互目标,然后生成目标姿态来显式建模人与物体的交互。接下来,他们使用里程碑生成模块来估计里程碑的长度,从而生成从起点到目标的里程碑轨迹,并放置里程碑姿态
这样一来,长距离运动生成就被分解为多个短距离运动生成的组合。最后,作者设计了一个运动生成模块,用于合成里程碑之间的轨迹并填充动作。
人工智能(AI)的姿态生成
研究者将人与物体互动并保持静止的姿态称为目标姿态。之前,大多数方法使用 cVAE 模型生成人体姿态,但研究者发现该方法在自己的研究中表现不佳。
为了应对这个挑战,他们采用了VQ-VAE模型来对数据分布进行建模。该模型利用离散表示将数据聚类在有限的点集中。此外,根据观察,不同的人体姿态可能具有相似的属性。例如,当人坐下时,手的动作可能不同,但腿部位置可能相同。因此,他们将关节分为L(L = 5)个不同的非重叠组
根据图3所示,目标姿态被划分为独立的关节组

根据起始姿态和目标姿态,我们可以让算法生成里程碑轨迹,并合成里程碑处的局部姿势。由于运动数据的长度是未知的,而且可以是任意的(例如,人可能快速走向椅子并坐下,也可能绕着椅子慢慢走一圈后坐下),因此需要预测里程碑的长度,用 N 表示。然后,合成 N 个里程碑点,并在这些点上放置局部姿态。
最后是动作生成,研究者用到的方法不是逐帧预测动作,而是根据生成的里程碑分层合成整个序列。他们首先生成轨迹,然后合成动作。具体来说,在两个连续的里程碑内,他们首先完成轨迹。然后,在连续里程碑姿态的引导下填充运动。这两个步骤分别使用两个 Transformer DDPM 完成。
研究者会为每个步骤精心设计DDPM的条件,以生成目标输出
重写的内容是:领先于其他产品的效果
研究人员在 SAMP 数据集上比较了不同方法的结果。可以看到,论文所提方法具有更低的 FD、更高的用户研究得分和更高的 APD。此外,他们的方法实现了比 SAMP 更高的轨迹多样性。
这种新方法可以在复杂的场景中产生令人满意的结果。该方法生成的穿透帧的百分比为3.8%,SAMP为4.9%
在SAMP、COUCH等数据集上,研究中提到的方法都取得了比基准方法更好的结果
完成全链路布局
数字人是将语音、语义、视觉等多模态技术融合在一起的综合体。在最近生成式 AI 取得突破的同时,数字人领域正在经历跨越式的发展,以前需要手工制作的建模、生成交互、渲染等环节正在全面实现人工智能化
随着工程师不断优化,这项技术在移动端的体验也在变得更好,刚刚结束的亚运火炬线上传递活动就是个很好的例子:想要成为火炬手,我们只需要点开支付宝 App 的小程序。
据说,为确保开幕式项目顺畅进行,蚂蚁集团的工程师们针对上百款不同型号的手机进行了超过 10 万次测试,敲下了 20 多万行代码,并通过自研 Web3D 互动引擎 Galacean、AI 数字人、云服务、区块链等多种技术结合,保证了人人都可以成为数字火炬手,参与火炬传递。亚运数字火炬手平台,能做到亿级用户规模覆盖,并支持 97% 的常见智能手机设备。
为了让数字火炬手们能够真实地参与,蚂蚁的技术团队开发了58个捏脸控制器。通过使用人脸识别和AI算法,他们可以根据每个人的面部特征绘制数字火炬手的脸部形象。同时,用户还可以自由调整脸型、发型、鼻子、嘴巴、眉毛等特征,实现自由换装。这项技术可以提供2万亿种不同的数字形象选择
另外,开幕式点火仪式后,每位数字火炬手都可以收到一张数字点火专属证书,绘有每位数字火炬手独一无二的形象,这张证书会通过分布式技术存储在区块链上。
从研究论文内容和亚运项目不难看出,背后都有完整数字人技术体系的支撑。据了解,蚂蚁集团正积极开展数字人技术探索,并已完成数字人的全链路核心技术自研布局。
与市面上多数公司不同,蚂蚁集团的数字人技术自研,选择与生成式 AI 结合的发展方向。从技术部署上,则涵盖数字人建模、渲染、驱动、交互的全生命周期,结合 AIGC 与大模型,大幅降低了数字人全链路生产成本。目前可支持 2D、3D 数字人,提供了播报型、交互型等多种解决方案。

根据公开资料,可以总结蚂蚁数字人平台目前具备四方面技术优势和特色:
低成本建模:与清华大学合作推出亚洲人脸 3D 参数化模型,基于照片重建 3D 人脸,更符合亚洲人脸型特点。 生成式驱动:驱动生成和动作捕捉结合,对比传统动作制作流程有效降低成本和提升动作丰富度。 高适配渲染:自研 Web3D 渲染引擎 Galacean,覆盖 97% 常见手机终端;在神经渲染方面搭建了动态驱动和静态建模解耦的 NeRF 框架,应用于数字人动态视频场景。 智能化交互:基于预训练的音色克隆,支持分钟级音频输入生成个性化数字人音色;并布局基于大模型的数字人交互。
亚运会开幕式之前,中国信通院发布最新数字人标准符合性验证结果,蚂蚁集团灵境数字人平台,成为业界首个通过金融数字人评测的产品,获得了最高评级「杰出级 (L4)」。
而在亚运之外,蚂蚁数字人平台还支持了蚂蚁集团支付宝、数字金融、政务、五福等业务,并在今年开始应用于短视频、直播、小程序等载体向合作伙伴提供基础服务。
可以预见在不久之后,伴随生成式 AI 加持的数字人不断升级,我们也会在更多场景中体验到更好的交互,真正进入数实融合的智能生活。
以上是数字人点燃亚运主火炬,从这篇ICCV论文透视蚂蚁的生成式AI黑科技的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

机器之能报道编辑:杨文谁能成为AI视频圈的King?美剧《权力的游戏》中,有一把「铁王座」。传说,它由巨龙「黑死神」熔掉上千把敌人丢弃的利剑铸成,象征着无上的权威。为了坐上这把铁椅子,各大家族展开了一场场争斗和厮杀。而自Sora出现以来,AI视频圈也掀起了一场轰轰烈烈的「权力的游戏」,这场游戏的玩家主要有大洋彼岸的RunwayGen-3、Luma,国内的快手可灵、字节即梦、智谱清影、Vidu、PixVerseV2等。今天我们就来测评一下,看看究竟谁有资格登上AI视频圈的「铁王座」。-1-文生视频
