耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘-人工智能-PHP中文网

首页

科技周边

人工智能

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 26, 2024 pm 08:37 PM

字节跳动产业豆包大模型

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。

,它生成的语音几乎与真人**无异**，连发音**缺陷**也能生成出来，尤其在学习模仿人类说话方面，**逼真度**和**流畅度**均有**出色**表现。

举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声音特征。

原素材（Prompt）：Seed-TTS 生成的中文语音：

突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道：“我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？”

英文语音也可生成，且依然能“复刻”中文发音者的特点。

Seed-TTS 生成的英文语音：

Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"

再举例来说，音色定制，Seed-TTS 也能实现，并在声音中带出人物的“娇嗔感”：

嘿嘿，你是不是也想拥有甜甜的恋爱呢？《微微一笑很倾城》是你的不二选择，男女主是校花校草类型，他们通过游戏结识，再到两人见面，全程没有一点误会，真的齁甜，想想都忍不住“姨妈笑”~

小傻瓜，嗯……算是个很可爱很亲切的名字，有点“独特”哦，不过我有些好奇，你为什么会给我选这个昵称呢？

不仅可以生成“单人”声音，Seed-TTS 甚至可以根据小说情节和不同角色特质，呈现对应人物和情绪的“说书”。

“这个药丸……不会是迷药或者春药之类的东西吧？我怎么闻着香味儿和两位姐姐说的那么相似？嗯，你该不会……想对我图谋不轨吧？”韩立闻言是愣了半天呐，他现在突然有种吐血三碗的感觉，这女孩儿的心思也太难以捉摸了吧，竟然能把迎香丸，联想到春药上。哎呀韩立现在也不知是该佩服对方的谨慎小心，还是应该为自己的无故蒙冤，而大呼三声了。“看样子，你好像说的是真的。不过，我还是要把它拿去给二姐检验下才能用，毕竟我们女儿家，要小心为上。”“咳，咳，呃随便你了。”韩立无言，只能干咳几声，掩饰一下自己脸上的窘迫，他现在觉得呀，自己还是离这个小妖精远点的好，否则，不知什么时候就要被她给郁闷死了。“哼哼，不过，如果这药真像你所说的那么好用，那就算你过关啦！今后师兄在莫府有什么为难的事，尽管可以来找彩环帮忙。我只要收些小小的报酬，就肯定能帮你完全解决。”“行啊，师妹，师兄有事，一定找你帮忙。”韩立这时也恢复了常态，皮笑肉不笑地回应着此话，心里呀，却在恶狠狠地想到：“找你这个小财迷才怪了。”

更多演示及原理，请见原论文及效果展示：

论文链接：https://arxiv.org/abs/2406.02430
效果展示：https://bytedancespeech.github.io/seedtts_tech_report/

在公布技术报告之前，Seed-TTS 部分技术已在 C 端产品上线一段时间，获得用户很多真实好评，并对外以豆包语音合成模型和豆包声音复刻模型进行技术商业化服务。

关于该成果的技术亮点、研究价值、克服了哪些挑战，不妨听听团队的分享。

一个语音生成基座大模型

Q：Seed-TTS 已被一些圈内人关注到，有什么认可，让你印象很深？

A：有个做语音识别的教授，后来在一家公司就职，是我非常佩服的业内人。不久前一次学术会议，我们演示了 Seed-TTS 的 Demo ，他看了以后就反馈说，最近本想看看语音生成方向有什么可做的，看完觉得这方面工作好像没什么可干的了。尽管我觉着仍有提高空间，但听完自己是非常开心的。

Q：为什么感到开心？

A：别人直接说你做得好，更多可能是客气。但这位教授当时正寻找相关研究课题，在这期间，看到我们的成果，给出正面评价，并且觉得我们的成果已经很好了，要另寻其他题，这对我们真的是很高的认可。

Q：对比此前成果，Seed-TTS 有什么不同？

A：它是一个语音生成的基座模型，跟多数语音生成模型稍有不同。具体来说，传统 TTS 是单一任务模型，但对于基座模型，我们希望它能干任何任务，发出任何声音，且同时允许我们进行很多个维度的操控，比如方言，真人口癖，甚至吞字这类语音上的瑕疵。

只要世界上存在的语音方式，英语、日语、汉语，甚至各类语言中的方言，如汉语中的陕西话、河南话…或者是开心、难过、大哭大喊、生气，只要人类存在的声音，我们都希望它发出来。

Q：以上种种设想，都做到了么？

A：很大一部分做到了，当然也有一些地方做不到，但技术一直在往前走，就像现在语言模型是个基座，在文本层面有很深度的理解，我们也希望把它真正做成一个“基座”。

Q：做出一个“基座模型”的挑战在哪里？

A：第一是细节建模要好。以往 TTS 作为播报系统，其实很容易就能实现，但听起来是“机器音”，如果要做到基座模型，且声音像人，需要大量细节。尤其人类对自身声音很敏感，小狗小猫叫声即便不太自然，可能也听不出来，但人类语音有一点问题，听出来就很“机械”。

第二，需要高自然度和高稳定性。前两年的主流 TTS 大多都基于先验知识和时长模型，每一个 Phone 都会定义出来，但从底层就限制了表现力。倘若去掉这些，则会出现稳定性和自然度问题，这又是一个挑战。

第三是数据覆盖（ Data Coverage ）量级很大。我们想做到复制任何人的声音与各种语言方言，包括复刻人类发音不完美，比如：吞字、发音不标准。为了重建这些特征，还原“不完美”，数据覆盖（ Data Coverage ）一定要高。之前，业界所使用的数据在成百上千的小时量级，也有上万小时的模型，Seed-TTS 所用的数据量级是远大于之前的。这么大量级的数据，还会带来质量和数量的平衡问题，这也是一个难点。

第四，模型设计。这么大规模情况下，如何设计模型，使得各方面效果都比较好，这也是很大挑战。

最后是工程挑战。上面提到了，我们的数据量级大，模型复杂度高，自然就会带来工程方面问题，这方面之前也很少有人去解决。

Q：技术层面看，解决这些挑战有什么价值？

A：主要是在研究过程中，试图回答了很多过去没解决的问题：

生成模型有语言模型和扩散模型两套，分别偏向文本和图像，语音同时具备文本和图像两者的属性，这两者哪个更适合用来语音建模，这是我们要去回答的问题。
语音和文本有很多相似之处，如何设计语音的表征，使其更适合语言模型建模，也是需要解决的问题。
如何利用强化学习，将各种主客观的偏好信息集成到生成系统里，同样是问题之一。

其他方面亮点还有很多，包括自回归语音生成模型的稳定性问题。此外，通过这回研究，我们也在尝试从 TTS 领域外的视角看 TTS 问题。

Q：你提到了对语言模型和扩散模型的研究，从中我们得出什么结论？

A：Seed-TTS 不仅提供一个基于语言模型的技术方案，同时，也提供另一个完全脱离时长模型的 Diffusion 技术方案，这在业内也是第一个。

此外，经过对两个系统的大量比较，我们发现，语言模型对于流式处理相对友好，扩散模型对编辑处理更为合适，我相信在未来，这两者会继续融合。

Q：对于这两个系统，Seed-TTS 具体解决了哪些技术难点？

A：针对语言模型系统，主要解决语音的 Tokenizer 和稳定性。

对于语言模型建模来说，语音 token 化是核心一环。目前市面上，连续和离散的 Tokenizer 都有，团队进行了较多探索。我们发现，Token 包含信息的设计，对整个模型各方面表现及稳定性有非常关键的影响，这既包括 Token 的信息、帧率等，也包括如何 Tokenizer ，以及如何将其再变回声音。目前，这些在业内探索并不多。

语言模型的稳定性方面，我们在 token ，模型设计，解码策略，数据准备上做了多方面的探索，真正做到了工业及应用的要求。

对于纯 Diffusion 系统，由于去掉了额外的时长模型，其难点同样集中在稳定性上。经过多方的尝试，我们在该链路上也实现了很好的指标。

Q：关于“语音和文本模型有很多相似之处”，这对我们有什么启发？

A：从文本大模型的视角看，语音生成模型也可以分为 Pretrain，Instruct Fine-Tuning 和 Post Training。

其中， Pretrain 可提高模型的基础能力，具体就体现为 Incontext Learning 能力，比如音色续写，语音克隆等能力。

对于 Instruct Fine-Tuning ，主要就是通过 Instruct ，让语音生成过程更加可控，就像导演跟演员去提要求，说话快点、慢点，怎么才能打动人，这些都被我们集成进去。

最后，我们还发现强化学习在很多维度可以为模型带来提高，将各种主客观偏好信息集成到生成系统里，包括稳定性、控制力、表现力、自然度等等。业内在这方面探索的人也不太多。

在上述基础上，我们也探索了利用合成数据以进行 Self-Distillation 的方法，同样获得非常好的收益。这在文本 LLM 中使用相对多一些，在语音行业，之前探索也相对较少。

Q：你三次提及“一些问题业内探索较少”，什么造成了这个现象？

A：一方面，之前语音生成领域的研究相对独立，有很多行业的传统经验，在这波 AIGC 大潮流下已经不一定适用了。从更广义角度看，语音生成跟文本、图像生成有很多共通之处。文本大模型，图像生成的快速发展也带给了我们很多新思考。由于新思路推广还需要时间，所以业内探索还比较少。

另一方面是很多研究者在学校里工作，没有相关资源。这里面系统性工程非常多，我们不仅能做到，而且探索也比较细，发现了一些能兼顾稳定性、表现力和运算量的模型。但这是不是做到了最好呢？可能还需要不断探索。

Q：整个研究过程中有什么里程碑式的时刻么？

A：基础效果去年就出了，此后我们用真实案例迭代了很多，这当中的工作包括：真实案例的寻找、各种 Post Training 、解决落地问题（比如各种场景下的稳定性、首包延迟、并发数、运算量等）。相比当时，现在效果又提升了非常多。

语音生成大模型走到哪一步了？

Q：现在回看，整个研究的价值在哪？

A：从 Seed-TTS 本身价值来说，语音不完全是工具，而是人类最直接的交互形式。比如从无声电影到有声电影，小小的变化，却是一个行业巨大的飞跃。人与人之间的情感连接更多依靠语音，比如小孩喊一声爸爸，给你的情感连接和读文字完全不一样。

如果我们要迈向真正的 AI ，语音的自然度是关键一环。过去我们想象的机器都是机器音，比如《流浪地球》里的 Moss ，如果 AI 真能像你的助手、伙伴一样，那语音带来的情感连接必不可少。《钢铁侠》的贾维斯之所以被很多人记住，也是因为它是真人配音的。

此外，在应用方面，语音的落地场景也非常多，比如小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达，都有用武之地，包括口吃、发不出声音的人仍然可以借助语音技术表达。只要不是纯粹信息媒介属性的语音场景，都有应用空间，这也是我们把基座模型做好的动力。

Q：Scaling law 已被一些从业者视为“信仰”，对于语音生成模型，我们把数据和模型 Scale 后，结果如何？

A：即便在很大量级上，我们继续扩大规模，也总能看见收益。总的来说，通过 Scale 的量级增大，我们很惊喜地看到，模型在不断获取新能力。

Q：根据你们的观察，这个极限在哪？

A：目前来说，我们依然每次仍能看到收益，肯定还需要继续探索。不过，我们已经证明通过正确的模型设计，可以打破 TTS 传统思路。以往，我们依靠少量高品质数据，但现在，我们不断增加量级，能获得更高收益。

Q：GPT4-o 对我们有什么启示？

A：它是一个生成和理解统一的模型，对语音技术的要求更高，需要一个模型同时具备听，说，想的能力。这些对我们工作提出很多新要求。

Q：目前语音领域大模型发展到哪一步了？

A：一方面是希望模型拥有专业演员级别的表现力和控制力。大部分时候，模型生成语音跟真人已经差别不大，但在影视剧中，演员表达情绪非常激烈，信息密度比较高，不完全能对齐。我们都希望把 Corner Case 补全。

另一方面就是细节的处理，包括 Bad Case 处理和优化，解决不常见的长尾情况。

大模型工作需要大量优秀人才参与进来

Q：本次 Seed-TTS 的发布，全球各地的同事都有参与进来，为什么有这么多人参与？

A：随着行业发展，多人合作是不可避免的。要把大模型做到极致，同时满足工业化落地，不可能通过 1 - 2 个想法支撑，必须很多人参与进来。且各方面参与者都得很专业。比如我们的数据，需要专业同学参与处理。再比如落地过程涉及很多细节，需要专门做评测、工程支持同学配合。他们都做出了巨大贡献。

我们可以看到 AI 前沿研究的主流玩家中，一个项目参与者人数非常多，每个环节都有专业的同学负责，如此高密度、高复杂度的人才协作、精密配合，对组织力的要求也是很高的。

Q：你眼中的团队氛围是怎么样？

A：我觉得是有“冲劲”和“抠细节”。“冲劲”体现在大家做事都很主动。出于好奇和改变行业的想法，这本身也是一个自驱的过程。这种氛围比较像创业公司，大公司比较少。

Q：你还提到了团队会“抠细节”，如何理解？

A：这个说的是抠真实场景中的细节。对于生成类工作，Demo 很容易做得漂亮，但在实际应用中，系统会面临各种各样的细节问题。为保证模型始终都有高质量的生成，满足用户需求，我们对系统稳定性和鲁棒性要求很苛刻，需要反复打磨，把每一个细节都做到很高质量。反而是 Demo ，我们没做太多优化。

Q：关于“不做太多 Demo 优化”，我们内部有过争论么？

A：有啊，尤其年轻同学们，毕竟大家都希望把比较好的一面展示出来，但我们还是希望拿到能够落地的效果，避免用户在真实使用过程中发现产品和 Demo 有很大落差，真正改变行业。

Q：目前相关技术在豆包 App 有应用么？

A：一些相关技术已经应用一段时间，在真实场景中经用户认可，我们才对外展示，还有部分技术正在做一些最后上线工作。

Q：哪些关键词能概括我们的团队？

A：第一个是专业。这体现在很多方面，包括数据、基础设施、模型设计等等。我们会很专业地去抠每个环节细节，从工业落地角度出发，把性能做到极致。

第二个词是专注与冲劲。为了达到我们的目标，专注和冲劲是少不了的。所以大家投入度非常高，等成果真正做出来后，大家也很有成就感，获得了自信。

第三个词是团结。团队协作的时候，大家都没什么领地意识，配合也会很顺畅，这让我感觉非常舒服，这在大公司是很少见的。

Q：我们团队希望持续吸引什么特质的人加入？

A：首先看价值观能不能符合上。能力固然是一方面，更重要的是，我们希望能找到同舟共济的伙伴，让每个人能获得自我实现。在这种价值观下合作，天然地，就会很顺畅。

其次是背景的多样性。目前 AI 各领域使用的方法都相似，且大家正逐渐往统一方向去融合，因此，强化学习、视觉识别、音频识别等领域的经验都对生成有至关重要的作用。我们希望不同专业背景的同学参与进来。我自己就是语音理解出身，转做 TTS 的。

最后是主观能动性和学习能力，对工作有高追求。生成式任务也有很多独特之处，我们希望候选人能找到任务与结合自身经验的结合点，这当中，主动学习能力是必要的，同时，我们希望能做出行业最好的技术和产品，日常也要求同学们怀揣这样的愿景不断前进。

以上即 Seed-TTS 团队同学的分享，目前团队还在持续招聘优秀人才。

如果你也对大模型技术怀揣理想，抱有热忱，同时认可豆包大模型团队的氛围，欢迎登录豆包大模型团队官网 team.doubao.com 或关注团队官方公众号，了解更多技术进展、团队故事、招聘信息：耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

字节跳动 Top Seed 人才计划正在招聘中，我们希望持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。加入我们，你将和最优秀的科学家、工程师一起，参与行业顶尖的技术挑战和攻坚。

欢迎长按下方二维码或点击阅读原文，投递简历。

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

点击此链接，一键投递岗位！

以上是耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7549

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题