耳朵沒錯，是聲音太真了，字節豆包語音合成成果Seed-TTS技術揭秘-人工智慧-PHP中文網

Seed-TTS 是位元組跳動豆包大模型團隊近期發布的語音產生大模型成果。

,它產生的語音幾乎與真人**無異**，連發音**缺陷**也能生成出來，尤其在學習模仿人類說話方面，**逼真度**和**流暢度**均有**出色**表現。

舉例來說，將一段語音提供給 Seed-TTS，它就能按文字產生全新語音，且帶上原素材的聲音特徵。

原素材（Prompt）：Seed-TTS 產生的中文語音：

突然，身邊一陣笑聲。我看著他們，意氣風發地挺直了胸膛，甩了甩那稍顯肉感的雙臂，輕笑道：「我身上的肉，是為了掩飾我爆棚的魅力，否則，豈不嚇壞了你們呢？

Seed-TTS 產生的英文語音：

Suddenly, there was a burst of laughter beside me. I looks cight, there was a burst of laughter beside me。 smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"

也舉例，實現，並在聲音中帶出人物的「嬌嗔感」：

嘿嘿，你是不是也想擁有甜甜的戀愛呢？《微微一笑很傾城》是你的不二選擇，男女主是校花校草類型，他們透過遊戲結識，再到兩人見面，全程沒有一點誤會，真的齁甜，想想都忍不住「姨媽笑」~

小傻瓜，嗯……算是個很可愛很親切的名字，有點「獨特」哦，不過我有些好奇，你為什麼會給我選這個暱稱呢？

不僅可以產生「單人」聲音，
Seed-TTS 甚至可以根據小說情節和不同角色特質，呈現對應人物和情緒的「說書」。

「這個藥丸…不會是迷藥或春藥之類的東西吧？我怎麼聞著香味兒和兩位姊姊說的那麼相似？嗯，你該不會…想嗯，你該不會…想對我圖謀不軌吧」韓立聞言是愣了半天吶，他現在突然有種吐血三碗的感覺，這女孩兒的心思也太難以捉摸了吧，竟然能把迎香丸，聯想到春藥上。哎呀韓立現在也不知是該佩服對方的謹慎小心，還是該為自己的無故蒙冤，而大呼三聲了。「看樣子，你好像說的是真的。不過，我還是要把它拿去給二姐檢驗下才能用，畢竟我們女兒家，要小心為上。」「咳，咳，呃隨便你了。「韓立無言，只能乾咳幾聲，掩飾一下自己臉上的窘迫，他現在覺得呀，自己還是離這個小妖精遠點的好，否則，不知什麼時候就要被她給鬱悶死了。「哼哼，不過，如果這藥真像你所說的那麼好用，那就算你過關啦！今後師兄在莫府有什麼為難的事，儘管可以來找彩環幫忙。我只要收些小小的報酬，就一定能幫你完全解決。在惡狠狠地想到：「找你這個小財迷才怪了。」

更多示範及原理，請見原論文及效果展示：

：https://bytedancespeech.github.io/seedtts_tech_report/

Q：Seed-TTS 已被一些圈內人關注到，有什麼認可，讓你印像很深？

有個做語音辨識的教授，後來在一家公司就職，是我非常佩服的業內人。看語音生成方向有什麼可做的，看完覺得這方面工作好像沒什麼可幹的了。感到開心？正面評價，並且覺得我們的成果已經很好了，要另尋其他題，這對我們真的是很高的認可。

Q：對比此前成果，Seed-TTS 有什麼不同？

A：

它是一個語音產生的基座模型，跟多數語音產生模型稍有不同。任務，發出任何聲音，同時允許我們進行很多維度的操控，比如方言，真人口癖，甚至吞字這類語音上的瑕疵。、漢語，甚至各類語言中的方言，如漢語中的陝西話、河南話……或者是開心、難過、大哭大喊、生氣，只要人類存在的聲音，我們都希望它發出來。

Q：以上種種設想，都做到了

麼？

A：

前，像現在語言模型是個基座，在文本層面有很深度的理解，我們也希望把它真正做成一個「基座」。哪裡？模型，且聲音像人，需要大量細節。尤其人類對自身聲音很敏感，小狗小貓叫聲即便不太自然，可能也聽不出來，但人類語音有一點問題，聽出來就很「機械」。

第二，需要高自然度和高穩定性。

前兩年的主流 TTS 大多是基於先驗知識和時長模型，每一個 Phone 都會定義出來，但從底層就限制了表現力。倘若去掉這些，就會出現穩定性和自然度問題，這又是一個挑戰。

第三是資料覆蓋（ Data Coverage ）量級很大。

我們想做到複製任何人的聲音與各種語言方言，包括復刻人類發音不完美，例如：吞字、發音不標準。為了重建這些特徵，還原“不完美”，資料覆蓋（ Data Coverage ）一定要高。之前，業界所使用的資料在數百上千的小時量級，也有上萬小時的模型，Seed-TTS 所用的資料量級是遠大於之前的。這麼大量級的數據，還會帶來品質和數量的平衡問題，這也是一個困難。

第四，模型設計。 這麼大規模情況下，如何設計模型，讓各方面效果都比較好，這也是很大挑戰。

最後是工程挑戰。 上面提到了，我們的資料量級大，模型複雜度高，自然就會帶來工程方面問題，這方面之前也很少人去解決。

Q：技術層面來看，解決這些挑戰有什麼價值？

A：主要是在研究過程中，試圖回答了許多過去沒解決的問題：

。偏向文字和圖像，語音同時具備文字和圖像兩者的屬性，這兩者哪個更適合用來語音建模，這是我們要去回答的問題。

語音和文字有許多相似之處，如何設計語音的表徵，使其更適合語言模型建模，也是需要解決的問題。
如何利用強化學習，將各種主客觀的偏好訊息整合到生成系統裡，同樣是問題之一。

其他方面亮點還有很多，包括自回歸語音生成模型的穩定性問題。此外，透過這回研究，我們也嘗試從 TTS 領域外的視角看 TTS 問題。

Q：你提到了語言模型和擴散模型的研究，從中我們得到什麼結論？

A：Seed-TTS 不僅提供一個基於語言模型的技術方案，同時，也提供另一個完全脫離時長模型的 Diffusion 技術方案，這在業界也是第一個。

此外，經過對兩個系統的大量比較，我們發現，語言模型對於流式處理相對友好，擴散模型對編輯處理更為合適，我相信在未來，這兩者會繼續融合。

Q：對於這兩個系統，Seed-TTS 具體解決了哪些技術困難？

A：針對語言模型系統，主要解決語音的 Tokenizer 和穩定性。

對於語言模型建模來說，語音 token 化是核心一環。目前市面上，連續且離散的 Tokenizer 都有，團隊進行了大量探索。我們發現，Token 包含資訊的設計，對整個模型各方面表現及穩定性有非常關鍵的影響，這既包括 Token 的資訊、幀率等，也包括如何 Tokenizer ，以及如何將其再變迴聲音。目前，這些在業界探索並不多。

語言模型的穩定性方面，我們在 token ，模型設計，解碼策略，數據準備上做了多方面的探索，真正做到了工業及應用的要求。

對於純 Diffusion 系統，由於去掉了額外的時長模型，其難點同樣集中在穩定性上。經過多方的嘗試，我們在該鏈路上也實現了很好的指標。

Q：關於“語音和文字模型有很多相似之處”，這對我們有什麼啟發？

A：從文本大模型的視角看，語音產生模型也可以分為 Pretrain，Instruct Fine-Tuning 和 Post Training。

其中， Pretrain 可提升模型的基礎能力，具體體現為 Incontext Learning 能力，例如音色續寫，語音複製等能力。

對於Instruct Fine-Tuning ，主要就是透過Instruct ，讓語音生成過程更加可控，就像導演跟演員去提要求，說話快點、慢點，怎麼才能打動人，這些都被我們集成進去。

最後，我們也發現強化學習在許多維度可以為模型帶來提高，將各種主客觀偏好資訊整合到生成系統裡，包括穩定性、控制力、表現力、自然度等等。業內在這方面探索的人也不太多。

在上述基礎上，我們也探索了利用合成數據以進行 Self-Distillation 的方法，同樣獲得非常好的收益。這在文字 LLM 中使用相對多一些，在語音行業，之前探索也相對較少。

Q：你三次提及“一些問題業內探索較少”，什麼造成了這個現象？

A：一方面，之前語音生成領域的研究相對獨立，有很多行業的傳統經驗，在這波 AIGC 大潮流下已經不一定適用了。從更廣義角度來看，語音生成跟文字、圖像生成有許多共同點。文本大模型，圖像生成的快速發展也帶給了我們許多新思考。由於新思路推廣還需要時間，所以業內探索還比較少。

另一方面是許多研究者在學校工作，沒有相關資源。這裡面系統性工程非常多，我們不僅能做到，探索也比較細，發現了一些能兼顧穩定性、表現力和運算量的模型。但這是不是做到了最好呢？可能還需要不斷探索。

Q：整個研究過程中有什麼里程碑式的時刻麼？

A：基礎效果去年就出了，此後我們用真實案例迭代了很多，這當中的工作包括：真實案例的尋找、各種Post Training 、解決落地問題（比如各各了種場景下的穩定性、首包延遲、併發數、運算量等）。相較於當時，現在效果又提升了非常多。

語音生成大模型走到哪一步了？

Q：現在回看，整個研究的價值在哪裡？

A：從 Seed-TTS 本身價值來說，語音不完全是工具，而是人類最直接的互動形式。例如從無聲電影到有聲電影，小小的變化，卻是產業巨大的飛躍。人與人之間的情緒連結更依賴語音，例如小孩喊一聲爸爸，給你的情感連結和讀文字完全不一樣。

如果我們要邁向真正的 AI ，語音的自然度是關鍵一環。過去我們想像的機器都是機器音，像是《流浪地球》裡的 Moss ，如果 AI 真能像你的助手、夥伴一樣，那語音帶來的情感連結必不可少。《鋼鐵人》的賈維斯之所以被許多人記住，也是因為它是真人配音的。

此外，在應用方面，語音的落地場景也非常多，例如小說電子書、角色設計、視訊翻譯、虛擬角色、播音、演員表達，都有用武之地，包括口吃、發不出聲音的人仍然可以藉助語音技術表達。只要不是純粹資訊媒介屬性的語音場景，都有應用空間，這也是我們把基座模型做好的動力。

Q：Scaling law 已被一些從業者視為“信仰”，對於語音生成模型，我們把數據和模型 Scale 後，結果如何？

A：即便在很大量級上，我們繼續擴大規模，也總能看見收益。總的來說，透過 Scale 的量級增大，我們很驚訝地看到，模型不斷獲取新能力。

Q：根據你們的觀察，這個極限在哪裡？

A：目前來說，我們仍然每次仍能看到收益，肯定還需要繼續探索。 不過，我們已經證明透過正確的模型設計，可以打破 TTS 傳統思路。以往，我們依賴少量高品質數據，但現在，我們不斷增加量級，能獲得更高收益。

Q：GPT4-o 對我們有什麼啟示？

A：它是一個生成和理解統一的模型，對語音技術的要求更高，需要一個模型同時具備聽，說，想的能力。這些對我們工作提出很多新要求。

Q：目前語音領域大模型發展到哪一步了？

A：一方面是希望模型擁有專業演員等級的表現力和控制力。大部分時候，模型生成語音跟真人已經差別不大，但在影視劇中，演員表達情緒非常激烈，訊息密度比較高，不完全能對齊。我們都希望把 Corner Case 補全。

另一方面就是細節的處理，包括 Bad Case 處理和最佳化，解決不常見的長尾情況。

大模型工作需要大量優秀人才參與進來

Q：本次 Seed-TTS 的發布，以及全球各地的許多同事都有參與，為什麼有這麼多人發布？

A：隨著產業發展，多人合作是不可避免的。要把大模型做到極致，同時滿足工業化落地，不可能透過 1 - 2 個想法支撐，必須很多人參與進來。且各方面參與者都得很專業。例如我們的數據，需要專業同學參與處理。接著是落地過程涉及許多細節，需要專門做評測、工程支援同學配合。他們都做出了巨大貢獻。

我們可以看到AI 前沿研究的主流玩家中，一個專案參與者人數非常多，每個環節都有專業的同學負責，如此高密度、高複雜度的人才協作、精密配合，對組織力的要求也是很高的。

Q：你眼中的團隊氛圍是怎麼樣？

A：我覺得是有「衝勁」和「摳細節」。「衝勁」體現在大家做事都很主動。出於好奇和改變產業的想法，這本身也是一個自驅的過程。這種氛圍比較像創業公司，大公司比較少。

Q：你還提到了團隊會“摳細節”，如何理解？

A：這個說的是摳真實場景中的細節。對於生成類別工作，Demo 很容易做得漂亮，但在實際應用中，系統會面臨各種各樣的細節問題。為確保模型始終都有高品質的生成，滿足使用者需求，我們對系統穩定性和穩健性要求很苛刻，需要反覆打磨，把每個細節都做到很高品質。反而是 Demo ，我們沒做太多優化。

Q：關於“不做太多 Demo 優化”，我們內部有過爭論麼？

A：有啊，尤其年輕同學們，畢竟大家都希望把比較好的一面展示出來，但我們還是希望能拿到真實使用過程中發現產品和Demo 有很大落差，真正改變產業。

Q：目前相關技術在豆包 App 有應用麼？

A：一些相關技術已經應用一段時間，在真實場景中經用戶認可，我們才對外展示，還有部分技術正在做一些最後上線工作。

Q：哪些關鍵字能概括我們的團隊？

A：第一個是專業。 這體現在許多方面，包括資料、基礎設施、模型設計等等。我們會很專業地去摳每個環節細節，從工業落地角度出發，把性能做到極致。

第二個字是專注與衝勁。 為了達到我們的目標，專注和衝勁是少不了的。所以大家投入度非常高，等成果真正做出來後，大家也很有成就感，獲得了自信。

第三個字是團結。 團隊協作的時候，大家都沒什麼領地意識，配合也會很順暢，這讓我感覺非常舒服，這在大公司是很少見的。

Q：我們團隊希望持續吸引什麼特質的人加入？

A：首先看價值觀能不能符合上。 能力固然是一方面，更重要的是，我們希望能找到同舟共濟的夥伴，讓每個人都能獲得自我實現。在這種價值觀下合作，天然地，就會很順暢。

其次是背景的多樣性。 目前 AI 各領域使用的方法都相似，且大家正逐漸往統一方向去融合，因此，強化學習、視覺辨識、音訊辨識等領域的經驗都對生成有至關重要的作用。我們希望不同專業背景的同學能參與其中。我自己就是語音理解出身，轉做 TTS 的。

最後是主觀能動性和學習能力，對工作有高追求。 生成式任務也有很多獨特之處，我們希望候選人能找到任務與結合自身經驗的結合點，這當中，主動學習能力是必要的，同時，我們希望能做出行業最好的技術和產品，日常也要求同學懷抱這樣的願景不斷前進。

以上即 Seed-TTS 團隊同學的分享，目前團隊仍在持續招募優秀人才。

如果你也對大模型技術懷抱理想，抱有熱忱，同時認可豆包大模型團隊的氛圍，歡迎登錄豆包大模型團隊官網team.doubao.com 或關注豆包大模型團隊的氛圍，歡迎登錄豆包大模型團隊官網team.doubao.com 或關注團隊官方公眾號了解更多技術進度、團隊故事、招募資訊：耳朵沒錯，是聲音太真了，字節豆包語音合成成果Seed-TTS技術揭秘