杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！-人工智能-PHP中文网

首页

科技周边

人工智能

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

PHPz

Jun 19, 2024 am 09:36 AM

产业 Runway

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。

这几天，大洋彼岸杀疯了！

Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）

更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐，脚步声在混凝土上回响。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）

黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。（Wolf howling at the moon）

视频 Demo 一出，评论区清一水的追问：啥时候能用？

还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一技术。

其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

链接：

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

AI 视频告别无声电影

众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨，拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的破裂声。（Cute baby dinosaur chirps, jungle ambience, egg cracking）

音频提示: 汽车打滑声、引擎轰鸣声，伴随着天使般的电子音乐。（cars skidding, car engine throttling, angelic electronic music）

音频提示: 日落时分，草原上响起悠扬的口琴声。（a slow mellow harmonica plays as the sun goes down on the prairie）

V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制，可以快速尝试不同的音频输出，并选择最佳匹配。

音频提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星在它周围划过，高速飞行，充满科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

音频提示：天籁般的大提琴氛围（Ethereal cello atmosphere）

音频提示：一艘宇宙飞船在广袤的太空中高速穿梭，星星在它周围飞速掠过，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

背后的工作原理

研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果，用于同步视频和音频信息。

V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导，生成与提示紧密对齐的同步、逼真音频。最终，音频输出被解码成音频波形，并与视频数据结合。

为了生成更高质量的音频并引导模型生成特定声音，研究团队在训练过程中添加了更多信息，包括 AI 生成的注释，详细描述声音和对话文本。

通过在视频、音频和额外注释上的训练，该技术学会将特定的音频事件与各种视觉场景关联起来，同时响应注释或文本中提供的信息。

谷歌方面强调，他们的技术与现有的视频到音频解决方案都不同，因为它可以理解原始像素，并且添加文本提示是可选的。此外，该系统不需要手动对生成的声音与视频进行对齐，极大地简化了创作流程。

不过，谷歌的这一技术也并非完美，他们仍在努力解决一些 bug。例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失真可能导致音频质量下降。

同时，他们也在优化唇形同步功能。

V2A 技术尝试从输入文本中生成语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调整，就可能导致口型与语音不同步。他们正改进这一技术，以提升唇形同步的自然度。

音频提示：音乐，文本转录「这只火鸡看起来好极了，我好饿。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或许是由于深度伪造技术带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负责任开发和部署 AI 技术，在向公众开放之前，V2A 技术将经过严格的安全评估和测试。

此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 生成的内容添加水印，以防止技术的滥用。

^{参考链接：}

^{https://deepmind.google/discover/blog/generating-audio-for-video/}

^{https://x.com/GoogleDeepMind/status/1802733643992850760}

以上是杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1672

CakePHP 教程

1428

Laravel 教程

1332

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题