這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了-人工智慧-PHP中文網

聽覺效果展示" >聽覺效果展示

模型內在技術原理

神奇模型的應用前景知多少？

首頁

科技週邊

人工智慧

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

王林

Apr 12, 2023 pm 06:25 PM

ai 科技

近期AIGC 如同上了熱搜一般，火熱程度居高不下，當然除了名頭格外響亮，突破也是絕對斐然：輸入自然語言就可自動生成圖像、視頻甚至是3D 模型，你說意不意外？

但在音訊音效的領域，AIGC 的福利似乎還差了一些。主要由於高自由度音訊產生需要依靠大量文字 - 音訊對數據，同時長時波形建模還有許多困難。 為了解決上述困難，浙江大學與北京大學聯合火山語音，共同提出了一款創新的、文本到音頻的生成系統，即 Make-An-Audio。其可將自然語言描述作為輸入，且是任意模態（例如文字、音訊、圖像、視訊等）均可，同時輸出符合描述的音訊音效，廣大網友很難不為其可控性以及泛化性按讚。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#論文連結：https://arxiv .org/abs/2301.12661
#專案連結：https://text-to-audio.github.io

#短短兩天，Demo 影片在Twitter 上獲得了45K 的播放量。

2023 年除夕後，以 Make-An-Audio、 MusicLM 等大量音訊合成文章湧現，48 小時內已經有 4 篇突破性的進展。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#網友評論1

廣大網友們紛紛表示，AIGC 音效合成將會改變電影、短片製作的未來。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#網友評論2

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

網友評論3

更有網友發出這樣的感嘆：「audio is all you need…」

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

網友評論4

聽覺效果展示

#話不多說直接看效果，根據文字產生音效原來也可以如此便捷順暢。

文字1：a speedboat running as wind blows into a microphone

轉換音訊1音訊：00:0000:09

文字2：fireworks pop and explode

轉換音訊2音訊：00:0000:09

是不是也曾一度因破損音訊修復而大傷腦筋？ Make-An-Audio 模型一出，這事兒就變得簡單多了。

修正前

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

修正前音訊

修正前音訊音訊：##00:0000:09

#已修復後

修正後音訊

修正後音訊音訊：# 00:0000:09

透過理解圖片產生音效

，也不是不行。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#圖片1

#轉換音訊圖片轉換音訊音訊：

00:0000:09

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

圖片2轉換音訊#圖片轉換音訊2音訊：

#00:0000:09

#根據

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了影片內容產生對應音效

，這款模型也可以輕鬆做到。

影片1

轉換音訊

影片1音訊：

00:0000:09

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#影片2轉換音訊

####影片2###音訊：########## #####00:0000:09############################

模型內在技術原理

深度解析「網紅」模型的神奇內在，還要回到音訊- 自然語言對資料稀少的客觀問題上，對此浙大北大聯合火山語音團隊協同兩大高校共同提出了Distill-then-Reprogram 文字增強策略，即使用教師模型獲得音訊的自然語言描述，再透過隨機重組獲得具有動態性的訓練樣本。

具體來說，在Distill 環節中，使用音訊轉文字與音訊- 文字擷取模型，找到語言缺失(Language-Free) 音訊的自然語言描述候選(Candidate)，透過計算候選文字與音訊的匹配相似度，在閾值下取得最佳結果作為音訊的描述。此方法具有強泛化性，且真實自然語言避免了測試階段的域外文本。「在 Reprogram 環節中，團隊從額外的事件資料集中隨機取樣，並與目前訓練樣本結合，得到全新的概念組合與描述，以擴增模型對不同事件組合的穩健性。」研究團隊表示。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

#Distill-then-Reprogram 文字增強策略框架圖

#如上圖所示，自監督學習已經成功將圖片遷移到音訊頻譜，利用了頻譜自編碼器以解決長音訊序列問題，並基於Latent Diffusion 生成模型完成對自監督表徵的預測，避免了直接預測長時波形。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

Make-An-Audio 模型系統框架圖

此外在研究中團隊也探索了強大的文本條件策略，包括對比式Contrastive Language-Audio Pretraining (CLAP) 以及語言模型(LLM) T5， BERT 等，驗證了CLAP 文本表徵的有效與計算友好性。同時也首次使用CLAP Score 來評估產生的音頻，可以用於衡量文字和生成場景之間的一致性；使用主、客觀相結合的評估方式，在benchmark 資料集測試中驗證了模型的有效性，展示了模型優異的零樣本學習(Zero-Shot) 泛化性等。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

Make-An-Audio 與基準模型主客觀評測實驗結果

神奇模型的應用前景知多少？

總體來看，Make-An-Audio 模型實現了高品質、高可控性的音訊合成，並提出了「No Modality Left Behind」，對文字條件音訊模型進行微調( finetune)，即能解鎖任意模態輸入的音訊合成(audio/image/video)。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

Make-An-Audio 首次實現高可控X - 音訊的AIGC 合成，X 可以是文字/ 音訊/ 圖片/ 視訊

在視覺指導的音訊合成上，Make-An-Audio 以CLIP 文字編碼器為條件，利用其圖像- 文字聯合空間，能夠直接以影像編碼為條件合成音訊。

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

Make-An-Audio 視覺 - 音訊合成框架圖

可以預見的是，音頻合成AIGC 將會在未來電影配音、短視頻創作等領域發揮重要作用，而藉助Make-An-Audio 等模型，或許在未來人人都有可能成為專業的音效師，都可以憑藉文字、影片、影像在任何時間、任何地點，合成出栩栩如生的音訊、音效。但現階段Make-An-Audio 也並不是完美無缺的，可能由於豐富的資料來源以及不可避免的樣本品質問題，訓練過程中難免會產生副作用，例如生成不符合文字內容的音頻，Make-An- Audio 在技術上被定位是“輔助藝術家生成”，可以肯定的一點，AIGC 領域的進展確實令人驚訝。

火山語音，長期以來面向字節跳動各大業務線提供全球優勢的AI 語音技術能力以及全棧語音產品解決方案，包括音頻理解、音頻合成、虛擬數字人、對話互動、音樂檢索、智慧硬體等。自 2017 年成立以來，團隊專注於研發業界領先的 AI 智慧語音技術，不斷探索 AI 與業務場景的高效結合，以實現更大的用戶價值。目前其語音辨識和語音合成已經涵蓋了多種語言和方言，多篇技術論文入選各類AI 頂級會議，為抖音、剪映、飛書、番茄小說、Pico 等業務提供了領先的語音能力，並適用於短影片、直播、影片創作、辦公室以及穿戴式裝置等多樣化場景，透過火山引擎開放給外部企業。

以上是這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1325

PHP教程

1272

C# 教程

1252

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

這段音頻火爆外網！文字、圖片一鍵產生逼真音效，音界AIGC來了

聽覺效果展示

模型內在技術原理

神奇模型的應用前景知多少？

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題