目錄
聽覺效果展示" >聽覺效果展示
模型內在技術原理
神奇模型的應用前景知多少?
首頁 科技週邊 人工智慧 這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

Apr 12, 2023 pm 06:25 PM
ai 科技

近期AIGC 如同上了熱搜一般,火熱程度居高不下,當然除了名頭格外響亮,突破也是絕對斐然:輸入自然語言就可自動生成圖像、視頻甚至是3D 模型,你說意不意外?

但在音訊音效的領域,AIGC 的福利似乎還差了一些。主要由於高自由度音訊產生需要依靠大量文字 - 音訊對數據,同時長時波形建模還有許多困難。 為了解決上述困難,浙江大學與北京大學聯合火山語音,共同提出了一款創新的、文本到音頻的生成系統,即 Make-An-Audio。其可將自然語言描述作為輸入,且是任意模態(例如文字、音訊、圖像、視訊等)均可,同時輸出符合描述的音訊音效,廣大網友很難不為其可控性以及泛化性按讚。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了


  • #論文連結:https://arxiv .org/abs/2301.12661
  • #專案連結:https://text-to-audio.github.io

#短短兩天,Demo 影片在Twitter 上獲得了45K 的播放量。

2023 年除夕後,以 Make-An-Audio、 MusicLM 等大量音訊合成文章湧現,48 小時內已經有 4 篇突破性的進展。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

#網友評論1

廣大網友們紛紛表示,AIGC 音效合成將會改變電影、短片製作的未來。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

#網友評論2

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

網友評論3

更有網友發出這樣的感嘆:「audio is all you need…」

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

網友評論4

聽覺效果展示

#話不多說直接看效果,根據文字產生音效原來也可以如此便捷順暢。

文字1:a speedboat running as wind blows into a microphone

轉換音訊1音訊:00:0000:09

文字2:fireworks pop and explode

轉換音訊2音訊:00:0000:09

#

是不是也曾一度因破損音訊修復而大傷腦筋? Make-An-Audio 模型一出,這事兒就變得簡單多了。

修正前

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

修正前音訊

修正前音訊音訊:##00:0000:09

#已修復後

修正後音訊

修正後音訊音訊:# 00:0000:09

透過理解圖片產生音效

,也不是不行。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

#圖片1

#轉換音訊圖片轉換音訊音訊:

00:0000:09

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

圖片2轉換音訊#圖片轉換音訊2音訊:

#00:0000:09

#根據

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了影片內容產生對應音效

,這款模型也可以輕鬆做到。

影片1

轉換音訊

影片1音訊:

00:0000:09

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

#影片2轉換音訊

####影片2###音訊:########## #####00:0000:09############################

模型內在技術原理

深度解析「網紅」模型的神奇內在,還要回到音訊- 自然語言對資料稀少的客觀問題上,對此浙大北大聯合火山語音團隊協同兩大高校共同提出了Distill-then-Reprogram 文字增強策略,即使用教師模型獲得音訊的自然語言描述,再透過隨機重組獲得具有動態性的訓練樣本。

具體來說,在Distill 環節中,使用音訊轉文字與音訊- 文字擷取模型,找到語言缺失(Language-Free) 音訊的自然語言描述候選(Candidate),透過計算候選文字與音訊的匹配相似度,在閾值下取得最佳結果作為音訊的描述。此方法具有強泛化性,且真實自然語言避免了測試階段的域外文本。 「在 Reprogram 環節中,團隊從額外的事件資料集中隨機取樣,並與目前訓練樣本結合,得到全新的概念組合與描述,以擴增模型對不同事件組合的穩健性。」 研究團隊表示。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

#Distill-then-Reprogram 文字增強策略框架圖

#如上圖所示,自監督學習已經成功將圖片遷移到音訊頻譜,利用了頻譜自編碼器以解決長音訊序列問題,並基於Latent Diffusion 生成模型完成對自監督表徵的預測,避免了直接預測長時波形。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

Make-An-Audio 模型系統框架圖

此外在研究中團隊也探索了強大的文本條件策略,包括對比式Contrastive Language-Audio Pretraining (CLAP) 以及語言模型(LLM) T5, BERT 等,驗證了CLAP 文本表徵的有效與計算友好性。同時也首次使用CLAP Score 來評估產生的音頻,可以用於衡量文字和生成場景之間的一致性;使用主、客觀相結合的評估方式,在benchmark 資料集測試中驗證了模型的有效性,展示了模型優異的零樣本學習(Zero-Shot) 泛化性等。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

Make-An-Audio 與基準模型主客觀評測實驗結果

神奇模型的應用前景知多少?

總體來看,Make-An-Audio 模型實現了高品質、高可控性的音訊合成,並提出了「No Modality Left Behind」,對文字條件音訊模型進行微調( finetune),即能解鎖任意模態輸入的音訊合成(audio/image/video)。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

Make-An-Audio 首次實現高可控X - 音訊的AIGC 合成,X 可以是文字/ 音訊/ 圖片/ 視訊

在視覺指導的音訊合成上,Make-An-Audio 以CLIP 文字編碼器為條件,利用其圖像- 文字聯合空間,能夠直接以影像編碼為條件合成音訊。

這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了

Make-An-Audio 視覺 - 音訊合成框架圖

可以預見的是,音頻合成AIGC 將會在未來電影配音、短視頻創作等領域發揮重要作用,而藉助Make-An-Audio 等模型,或許在未來人人都有可能成為專業的音效師,都可以憑藉文字、影片、影像在任何時間、任何地點,合成出栩栩如生的音訊、音效。但現階段Make-An-Audio 也並不是完美無缺的,可能由於豐富的資料來源以及不可避免的樣本品質問題,訓練過程中難免會產生副作用,例如生成不符合文字內容的音頻,Make-An- Audio 在技術上被定位是“輔助藝術家生成”,可以肯定的一點,AIGC 領域的進展確實令人驚訝。

火山語音,長期以來面向字節跳動各大業務線提供全球優勢的AI 語音技術能力以及全棧語音產品解決方案,包括音頻理解、音頻合成、虛擬數字人、對話互動、音樂檢索、智慧硬體等。自 2017 年成立以來,團隊專注於研發業界領先的 AI 智慧語音技術,不斷探索 AI 與業務場景的高效結合,以實現更大的用戶價值。目前其語音辨識和語音合成已經涵蓋了多種語言和方言,多篇技術論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico 等業務提供了領先的語音能力,並適用於短影片、直播、影片創作、辦公室以及穿戴式裝置等多樣化場景,透過火山引擎開放給外部企業。

以上是這段音頻火爆外網!文字、圖片一鍵產生逼真音效,音界AIGC來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1325
25
PHP教程
1272
29
C# 教程
1252
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

See all articles