Bytedance刚刚使AI视频吹嘘！ - Omnihuman 1-人工智能-PHP中文网

Bytedance刚刚使AI视频吹嘘！ - Omnihuman 1

Jennifer Aniston

发布： 2025-03-06 12:09:17

原创

388 人浏览过

目录的

表

现有动画模型的

的限制当前的人类动画模型经常受到限制。他们经常依靠小型专业数据集，导致低质量，僵化的动画。许多人在各种环境中的概括中挣扎，缺乏现实主义和流动性。对单个输入方式的依赖（例如，仅文本或图像）严重限制了其捕获人类运动和表达细微差别的能力。

> Omnihuman-1通过多模式方法来应对这些挑战。它将文本，音频和姿势信息集成为条件信号，从而创建上下文丰富而逼真的动画。创新的Omni条件设计可以从参考图像中保留主题身份和背景细节，从而确保一致性。独特的培训策略可最大化数据利用，防止过度拟合和提高性能。

示例Omnihuman-1视频 ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Omnihuman-1

仅从图像和音频中生成逼真的视频。它处理各种视觉和音频样式，以任何纵横比和身体比例制作视频。最终的动画具有详细的运动，照明和纹理。（注意：简短省略参考图像，但可应要求可用。）> >说话

您的浏览器不支持视频标签。

唱歌

您的浏览器不支持视频标签。

多样性

您的浏览器不支持视频标签。

>半身案件

您的浏览器不支持视频标签。

模型培训和体系结构

Omnihuman-1的训练利用了多条件扩散模型。核心是预先训练的海藻模型（MMDIT体系结构），最初是在一般文本视频对中训练的。然后，通过整合文本，音频和姿势信号来适应人类视频的生成。因果3D变量自动编码器（3DVAE）将视频投放到潜在空间，以进行有效的降级。该体系结构巧妙地重新重新重复了从参考图像中保留主题身份和背景的剥落过程。

模型体系结构图

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1