開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM
給出一段文字,人工智慧就可以產生音樂,語音,各種音效,甚至是想像的聲音,例如黑洞和雷射槍。最近由英國薩里大學和帝國學院聯合推出的AudioLDM,在發布之後迅速火遍國外,一周內在推特上收穫了近 300 次的轉發和 1500 次的點讚。在模型開源第二天,AudioLDM就衝上了Hugging Face 熱搜榜第一名,並在一周內進入了Hugging Face 最受喜歡的前40 名應用榜單(共約25000),也迅速出現了很多基於AudioLDM 的衍生工作。
AudioLDM 模型有以下幾個亮點:
- 首個同時可以從文字產生音樂,語音和音效的開源模型。
- 由學術界開發,用更少的數據,單一 GPU,以及更小的模型,實現了目前最好的效果。
- 提出以自監督的方式訓練產生模型,使文字指導音訊產生不再受限於(文字-音訊)資料對缺失的問題。
- 模型在不做額外訓練的情況下(zero-shot),可以實現音訊風格的遷移,音訊缺失填充,和音訊超解析度。
- #專案首頁:https://audioldm.github.io/
- 論文:https://arxiv.org/abs/2301.12503
- #開源程式碼與模型:https://github.com/haoheliu/AudioLDM
- Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm- text-to-audio-generation
作者首先在一月二十七日發布了對模型的預告,展示了非常簡單的一個文本:” A music made by []” (一段由【】生成的音樂) 去生成不同聲音的效果。影片展示了由不同樂器,甚至是蚊子製作的音樂,在推特上迅速受到了廣泛關注,播放次數超過 35.4K 次,被轉發了 130 餘次。
隨後作者公開了論文和一個新的影片。這個影片中作者展示了模型的大部分能力,以及和 ChatGPT 合作去產生聲音的效果。 AudioLDM 甚至可以產生外太空的聲音。
隨後作者發布了論文,預訓練的模型,和一個可玩的接口,點燃了推特網友們的熱情,在第二天就迅速登上了Hugging Face熱門搜榜的第一名:
#推特上這篇工作受到了廣泛的關注,業內學者們紛紛轉發與評估:
網友使用AudioLDM 產生了各種各樣的聲音。
例如有產生二次元貓娘打呼嚕的聲音:
以及鬼魂的聲音:
還有網友合成了:「木乃伊的聲音,低頻,有一些痛苦的呻吟聲」。
甚至還有網友合成了:「有旋律的放屁聲」。
不得不感嘆網友們想像力之豐富。
也有網友直接用 AudioLDM 產生了一系列的音樂專輯,有各種不同的風格,包括爵士,放克,電子和古典等類型。有些音樂頗有創意。
例如 「以宇宙和月亮為主題創作一個氛圍音樂」:
##以及「使用未來的聲音創作一個音樂」:
有興趣的讀者可以訪問這個音樂專輯網站:https://www.latent.store/albums
#也有網友發揮想像力,結合圖片生成文字的模型和AudioLDM,製作了一個圖片指導音效產生的應用。
比如說如果給AudioLDM 這樣的文字:"A dog running in the water with a frisbee」 (一個在水中奔跑並叼著飛盤的狗狗):
在獲得「A man and a woman sitting at a bar」(一個男人和一個女人坐在酒吧中)的文本後,模型可以產生如下的聲音,可以聽到模糊的說話聲,以及背景酒杯碰撞的聲音。
還有網友用 AudioLDM 產生了火焰狗狗的聲音,非常有趣。 ############作者也製作了一個影片來展示模型在音效上的生成能力,展示了 AudioLDM 生成樣本接近音效庫的效果。 ############事實上文字產生音訊只是 AudioLDM 的能力的一部分,AudioLDM 同樣可以實現音色轉換、缺失填滿和超解析度。 ############下邊這兩張圖展示了(1)打擊樂到氛圍音樂;以及(2)小號到小朋友的歌聲的音色轉換。 ###########################################下邊是打擊樂到氛圍音樂(漸進的轉換強度)的效果。 ############小號的聲音轉化為小朋友唱歌的聲音(漸進的轉換強度)的效果。 ############下邊我們將會展示模型在音訊超分辨率,音訊缺失填充和發聲材料控制上的效果。由於文章篇幅有限,音訊主要以頻譜圖的方式展示,有興趣的讀者請前往 AudioLDM 的專案首頁查看:https://audioldm.github.io/ ######
在音訊超分上,AudioLDM 的效果也是非常優秀,相較於之前的超解析度模型,AudioLDM 是通用的超解析度模型,不僅限於處理音樂和語音。
在音訊缺失填充上,AudioLDM 可以根據給定文字的不同填入不同的音訊內容,並且在邊界處過渡比較自然。
此外,AudioLDM 也展現出了很強的控制能力,例如對聲學環境,音樂的情緒和速度,物體材料,音調高低以及先後順序等都有很強的控制能力,有興趣的讀者可以到AudioLDM 的論文或專案主頁查看。
作者在文章中對AudioLDM 模型做了主觀評分與客觀指標的評測,結果顯示都可以明顯超過先前最優的模型:
其中AudioGen 為Facebook 在2022 年十月提出的模型,使用了十個資料集,64 塊GPU 和285 兆的參數量。與之相比,AudioLDM-S 可以用單獨一個資料集,1 塊 GPU 和 181 兆的參數量達到更好的效果。
主觀評分也可以看出 AudioLDM 明顯優於先前的方案 DiffSound。那麼,AudioLDM 究竟做了哪些改進使得模型有如此優秀的效能呢?
首先,為了解決文字 - 音訊資料對數量太少的問題,作者提出了自我監督的方式去訓練 AudioLDM。
具體來說,在訓練核心模組LDMs 的時候,作者使用音訊自身的embedding 去作為LDMs 的condition訊號,整個流程並不涉及文字的使用(如上圖所示)。這個方案基於一對預先訓練好的音訊 - 文字對比學習編碼器(CLAP),在 CLAP 原文中 CLAP 展現了很好的泛化能力。 AudioLDM 利用了 CLAP 優秀的泛化能力,達到了在不需要文字標籤情況下在大規模音訊資料上的模型訓練。
事實上,作者發現單使用音訊訓練甚至能比使用音訊- 文字資料對更好:
作者分析了兩方面原因:(1)文字標註本身難以包括音頻的所有信息,例如聲學環境,頻率分佈等,從而導致文本的embedding 不能很好表徵音頻,( 2)文本本身的品質並不完美,例如這樣的一個標註“Boats: Battleships-5.25 conveyor space”,這種標註即使人類也很難想像具體是什麼聲音,就會導致模型訓練的問題。相較之下,使用音訊本身做 LDM 的 condition 可以確保目標音訊和 condition 的強關聯性,從而達到更好的生成效果。
除此之外,作者採用的 Latent Diffusion 方案使得 Diffusion 模型可以在一個較小的空間中進行計算,從而大大的減少了模型對算力的要求。
在模型訓練和結構上的許多細節探索也幫助 AudioLDM 獲得了優秀的性能。
作者也畫了一個簡單的結構圖來介紹了兩個主要的下游任務:
作者也在不同的模型結構,模型大小,DDIM 採樣步數以及不同 Classifier-free Guidance Scale 做了詳盡的實驗。
在公開模型的同時,作者也公開了他們的生成模型評價體系的程式碼庫,以統一今後學術界在這類問題上的評價方法,從而方便論文之間的比較,代碼在如下連結:https://github.com/haoheliu/audioldm_eval
在這項技術爆火的同時,也有網友對科技的安全性提出了質疑:
作者的團隊表示會對模型的使用尤其是商用加以限制,保證模型僅被用來學術交流,並使用適當的LICENSE 和水印保護,防止Ethic 方面問題的出現。
作者資訊
論文有兩位共同一作:劉濠赫(英國薩里大學)和陳澤華(英國帝國學院)。
劉濠赫目前博士就讀於英國薩里大學,師從 Mark D. Plumbley 教授。其開源專案在 GitHub 上收穫了數千star。在各大學術會議發表論文二十餘篇,並在多項世界機器聲學大賽中獲得前三名的名次。在企業界與微軟,位元組跳動,英國廣播公司等有廣泛的合作,個人主頁: https://www.surrey.ac.uk/people/haohe-liu
陳澤華是英國帝國學院在讀博士生,師從Danilo Mandic 教授,曾在微軟語音合成研究組及京東人工智慧實驗室實習,研究興趣涉及生成模型、語音合成、生物電訊號生成。
以上是開源模型、單卡訓練,帶你了解爆火的文字指導音訊產生技術AudioLDM的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

人臉偵測辨識技術已經是一個比較成熟且應用廣泛的技術。而目前最廣泛的網路應用語言非JS莫屬,在Web前端實現人臉偵測辨識相比後端的人臉辨識有優勢也有弱勢。優點包括減少網路互動、即時識別,大大縮短了使用者等待時間,提高了使用者體驗;弱勢是:受到模型大小限制,其中準確率也有限。如何在web端使用js實現人臉偵測呢?為了實現Web端人臉識別,需要熟悉相關的程式語言和技術,如JavaScript、HTML、CSS、WebRTC等。同時也需要掌握相關的電腦視覺和人工智慧技術。值得注意的是,由於Web端的計

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理
