表
现有动画模型的的限制 当前的人类动画模型经常受到限制。 他们经常依靠小型专业数据集,导致低质量,僵化的动画。 许多人在各种环境中的概括中挣扎,缺乏现实主义和流动性。 对单个输入方式的依赖(例如,仅文本或图像)严重限制了其捕获人类运动和表达细微差别的能力。
> Omnihuman-1通过多模式方法来应对这些挑战。它将文本,音频和姿势信息集成为条件信号,从而创建上下文丰富而逼真的动画。 创新的Omni条件设计可以从参考图像中保留主题身份和背景细节,从而确保一致性。独特的培训策略可最大化数据利用,防止过度拟合和提高性能。
示例Omnihuman-1视频
仅从图像和音频中生成逼真的视频。它处理各种视觉和音频样式,以任何纵横比和身体比例制作视频。 最终的动画具有详细的运动,照明和纹理。 (注意:简短省略参考图像,但可应要求可用。)> >说话
您的浏览器不支持视频标签。唱歌
您的浏览器不支持视频标签。多样性
您的浏览器不支持视频标签。>半身案件
您的浏览器不支持视频标签。模型培训和体系结构
Omnihuman-1的训练利用了多条件扩散模型。 核心是预先训练的海藻模型(MMDIT体系结构),最初是在一般文本视频对中训练的。 然后,通过整合文本,音频和姿势信号来适应人类视频的生成。 因果3D变量自动编码器(3DVAE)将视频投放到潜在空间,以进行有效的降级。 该体系结构巧妙地重新重新重复了从参考图像中保留主题身份和背景的剥落过程。模型体系结构图
OMNI条件培训策略>
这个三阶段的过程逐渐完善了扩散模型。 它根据其运动相关强度(弱到强),依次介绍了调节方式(文本,音频,姿势)。这样可以确保每种模式的平衡贡献,从而优化动画质量。 音频调节使用WAV2VEC进行特征提取,姿势调节会集成姿势热图。
> >本文使用大量数据集(18.7万小时的与人类相关数据)进行了严格的实验验证。 Omnihuman-1优于各种指标(IQA,ASE,SYNC-C,FID,FVD)的现有方法,在处理不同的输入配置时演示了其出色的性能和多功能性。
>
扩展视觉结果:演示多功能
扩展的视觉结果展示了Omnihuman-1生成多样化和高质量动画的能力,突出了其处理各种样式,对象相互作用和姿势驱动的方案的能力。
结论
Omnihuman-1代表了人类视频生成中的一个重大飞跃。它可以从有限的输入及其多模式功能中创建现实动画的能力,使其成为一项非常出色的成就。 该模型有望彻底改变数字动画领域。
以上是Bytedance刚刚使AI视频吹嘘! - Omnihuman 1的详细内容。更多信息请关注PHP中文网其他相关文章!