目錄
作者資訊
首頁 科技週邊 人工智慧 開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

Apr 12, 2023 pm 07:04 PM
模型 開源

給出一段文字,人工智慧就可以產生音樂,語音,各種音效,甚至是想像的聲音,例如黑洞和雷射槍。最近由英國薩里大學和帝國學院聯合推出的AudioLDM,在發布之後迅速火遍國外,一周內在推特上收穫了近 300 次的轉發和 1500 次的點讚。在模型開源第二天,AudioLDM就衝上了Hugging Face 熱搜榜第一名,並在一周內進入了Hugging Face 最受喜歡的前40 名應用榜單(共約25000),也迅速出現了很多基於AudioLDM 的衍生工作。

AudioLDM 模型有以下幾個亮點:

  • 首個同時可以從文字產生音樂,語音和音效的開源模型。
  • 由學術界開發,用更少的數據,單一 GPU,以及更小的模型,實現了目前最好的效果。
  • 提出以自監督的方式訓練產生模型,使文字指導音訊產生不再受限於(文字-音訊)資料對缺失的問題。
  • 模型在不做額外訓練的情況下(zero-shot),可以實現音訊風格的遷移,音訊缺失填充,和音訊超解析度。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

  • #專案首頁:https://audioldm.github.io/ 
  • 論文:https://arxiv.org/abs/2301.12503
  • #開源程式碼與模型:https://github.com/haoheliu/AudioLDM
  • Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm- text-to-audio-generation

作者首先在一月二十七日發布了對模型的預告,展示了非常簡單的一個文本:” A music made by []” (一段由【】生成的音樂) 去生成不同聲音的效果。影片展示了由不同樂器,甚至是蚊子製作的音樂,在推特上迅速受到了廣泛關注,播放次數超過 35.4K 次,被轉發了 130 餘次。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

隨後作者公開了論文和一個新的影片。這個影片中作者展示了模型的大部分能力,以及和 ChatGPT 合作去產生聲音的效果。 AudioLDM 甚至可以產生外太空的聲音。

隨後作者發布了論文,預訓練的模型,和一個可玩的接口,點燃了推特網友們的熱情,在第二天就迅速登上了Hugging Face熱門搜榜的第一名:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

#推特上這篇工作受到了廣泛的關注,業內學者們紛紛轉發與評估:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

網友使用AudioLDM 產生了各種各樣的聲音。

例如有產生二次元貓娘打呼嚕的聲音:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

以及鬼魂的聲音:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

還有網友合成了:「木乃伊的聲音,低頻,有一些痛苦的呻吟聲」。

甚至還有網友合成了:「有旋律的放屁聲」。

不得不感嘆網友們想像力之豐富。

也有網友直接用 AudioLDM 產生了一系列的音樂專輯,有各種不同的風格,包括爵士,放克,電子和古典等類型。有些音樂頗有創意。

例如 「以宇宙和月亮為主題創作一個氛圍音樂」: 

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

##以及「使用未來的聲音創作一個音樂」:開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

有興趣的讀者可以訪問這個音樂專輯網站:https://www.latent.store/albums

#也有網友發揮想像力,結合圖片生成文字的模型和AudioLDM,製作了一個圖片指導音效產生的應用。

比如說如果給AudioLDM 這樣的文字:"A dog running in the water with a frisbee」 (一個在水中奔跑並叼著飛盤的狗狗):

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

可以產生如下狗狗拍打水面的聲音。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

甚至可以還原舊照片中的聲音,例如下邊這個圖片:

在獲得「A man and a woman sitting at a bar」(一個男人和一個女人坐在酒吧中)的文本後,模型可以產生如下的聲音,可以聽到模糊的說話聲,以及背景酒杯碰撞的聲音。

還有網友用 AudioLDM 產生了火焰狗狗的聲音,非常有趣。 ############作者也製作了一個影片來展示模型在音效上的生成能力,展示了 AudioLDM 生成樣本接近音效庫的效果。 ############事實上文字產生音訊只是 AudioLDM 的能力的一部分,AudioLDM 同樣可以實現音色轉換、缺失填滿和超解析度。 ############下邊這兩張圖展示了(1)打擊樂到氛圍音樂;以及(2)小號到小朋友的歌聲的音色轉換。 ###########################################下邊是打擊樂到氛圍音樂(漸進的轉換強度)的效果。 ############小號的聲音轉化為小朋友唱歌的聲音(漸進的轉換強度)的效果。 ############下邊我們將會展示模型在音訊超分辨率,音訊缺失填充和發聲材料控制上的效果。由於文章篇幅有限,音訊主要以頻譜圖的方式展示,有興趣的讀者請前往 AudioLDM 的專案首頁查看:https://audioldm.github.io/ ######

在音訊超分上,AudioLDM 的效果也是非常優秀,相較於之前的超解析度模型,AudioLDM 是通用的超解析度模型,不僅限於處理音樂和語音。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

在音訊缺失填充上,AudioLDM 可以根據給定文字的不同填入不同的音訊內容,並且在邊界處過渡比較自然。

此外,AudioLDM 也展現出了很強的控制能力,例如對聲學環境,音樂的情緒和速度,物體材料,音調高低以及先後順序等都有很強的控制能力,有興趣的讀者可以到AudioLDM 的論文或專案主頁查看。

作者在文章中對AudioLDM 模型做了主觀評分與客觀指標的評測,結果顯示都可以明顯超過先前最優的模型:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

其中AudioGen 為Facebook 在2022 年十月提出的模型,使用了十個資料集,64 塊GPU 和285 兆的參數量。與之相比,AudioLDM-S 可以用單獨一個資料集,1 塊 GPU 和 181 兆的參數量達到更好的效果。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

主觀評分也可以看出 AudioLDM 明顯優於先前的方案 DiffSound。那麼,AudioLDM 究竟做了哪些改進使得模型有如此優秀的效能呢?

首先,為了解決文字 - 音訊資料對數量太少的問題,作者提出了自我監督的方式去訓練 AudioLDM。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

具體來說,在訓練核心模組LDMs 的時候,作者使用音訊自身的embedding 去作為LDMs 的condition訊號,整個流程並不涉及文字的使用(如上圖所示)。這個方案基於一對預先訓練好的音訊 - 文字對比學習編碼器(CLAP),在 CLAP 原文中 CLAP 展現了很好的泛化能力。 AudioLDM 利用了 CLAP 優秀的泛化能力,達到了在不需要文字標籤情況下在大規模音訊資料上的模型訓練。

事實上,作者發現單使用音訊訓練甚至能比使用音訊- 文字資料對更好:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者分析了兩方面原因:(1)文字標註本身難以包括音頻的所有信息,例如聲學環境,頻率分佈等,從而導致文本的embedding 不能很好表徵音頻,( 2)文本本身的品質並不完美,例如這樣的一個標註“Boats: Battleships-5.25 conveyor space”,這種標註即使人類也很難想像具體是什麼聲音,就會導致模型訓練的問題。相較之下,使用音訊本身做 LDM 的 condition 可以確保目標音訊和 condition 的強關聯性,從而達到更好的生成效果。

除此之外,作者採用的 Latent Diffusion 方案使得 Diffusion 模型可以在一個較小的空間中進行計算,從而大大的減少了模型對算力的要求。

在模型訓練和結構上的許多細節探索也幫助 AudioLDM 獲得了優秀的性能。

作者也畫了一個簡單的結構圖來介紹了兩個主要的下游任務:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者也在不同的模型結構,模型大小,DDIM 採樣步數以及不同 Classifier-free Guidance Scale 做了詳盡的實驗。

在公開模型的同時,作者也公開了他們的生成模型評價體系的程式碼庫,以統一今後學術界在這類問題上的評價方法,從而方便論文之間的比較,代碼在如下連結:https://github.com/haoheliu/audioldm_eval

在這項技術爆火的同時,也有網友對科技的安全性提出了質疑:

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

作者的團隊表示會對模型的使用尤其是商用加以限制,保證模型僅被用來學術交流,並使用適當的LICENSE 和水印保護,防止Ethic 方面問題的出現​​。

作者資訊

論文有兩位共同一作:劉濠赫(英國薩里大學)和陳澤華(英國帝國學院)。

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

劉濠赫目前博士就讀於英國薩里大學,師從 Mark D. Plumbley 教授。其開源專案在 GitHub 上收穫了數千star。在各大學術會議發表論文二十餘篇,並在多項世界機器聲學大賽中獲得前三名的名次。在企業界與微軟,位元組跳動,英國廣播公司等有廣泛的合作,個人主頁: https://www.surrey.ac.uk/people/haohe-liu

開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM

陳澤華是英國帝國學院在讀博士生,師從Danilo Mandic 教授,曾在微軟語音合成研究組及京東人工智慧實驗室實習,研究興趣涉及生成模型、語音合成、生物電訊號生成。

以上是開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1653
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1251
29
C# 教程
1224
24
全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

建議:優秀JS開源人臉偵測辨識項目 建議:優秀JS開源人臉偵測辨識項目 Apr 03, 2024 am 11:55 AM

人臉偵測辨識技術已經是一個比較成熟且應用廣泛的技術。而目前最廣泛的網路應用語言非JS莫屬,在Web前端實現人臉偵測辨識相比後端的人臉辨識有優勢也有弱勢。優點包括減少網路互動、即時識別,大大縮短了使用者等待時間,提高了使用者體驗;弱勢是:受到模型大小限制,其中準確率也有限。如何在web端使用js實現人臉偵測呢?為了實現Web端人臉識別,需要熟悉相關的程式語言和技術,如JavaScript、HTML、CSS、WebRTC等。同時也需要掌握相關的電腦視覺和人工智慧技術。值得注意的是,由於Web端的計

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

阿里7B多模態文件理解大模型拿下新SOTA 阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

See all articles