在「天工」大模型發布一周年之際,崑崙萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。
自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。
在過去的時候,X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位AI 科學家— Gary Marcus 的不滿,還用當前大火的Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。
與Aran Komatsuzaki一樣,國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具,生成了很多非常有意思的音樂作品。
不過,有許多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。
B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址:https://b23.tv/gVqTUOu
那麼,有沒有一個 AI 音樂生成模型專門針對中文做過優化呢?
崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對國語做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。
那麼,和 Suno 比,天工 SkyMusic 表現如何?橫向測評的數據顯示,在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工SkyMusic 都更勝一籌,綜合表現超越Suno V3,成為中國首個音樂AIGC 的SOTA模型,也讓中國的自研大模型技術第一次在AIGC 領域領先全球。
如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數,超越了 3140 億參數的 Grok-1,是全球最大的開源 MoE 大模型。
在 MMBench 等多項權威多模態評量結果中,「天工 3.0」超越 GPT-4V,全球領先。
在這個基座模型的祝福下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。
那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個接一個來看。
首個國產音樂 SOTA 模型的無限玩法
其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能產生風格、唱腔與之類似的歌。
如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。
當然,你也可以試著用「天工3.0」來寫歌,像是這首《本站》就是我們用「天工3.0」寫出來的:
接下來就是要選擇參考歌曲,這也是天工SkyMusic 的獨特之處,也就是能夠依照範例音源產生音樂。
在這一步,天工 SkyMusic 提供了許多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《週處除三害》插曲)就有古風搖滾、DJ 等五個版本。
在試用過程中我們也發現,其實,天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。
目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。
雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。
自研類 Sora 架構,技術路線圖已公開
天工 SkyMusic 是端到端的音樂產生模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。
首先從技術路線來說,天工SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並產生音訊波形,而不是採用符號音樂生成路線(如MIDI)來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高品質的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。
而且,在這個方向中,下決心去攻克「人聲Song」領域的人更少,大部分研究集中於無人聲的BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。
頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建了包含2000 萬首歌曲的數據集(人類有史以來最大的音樂數據集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。
天工SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習Music Patches 的上下文控制依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。
#從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。
對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。
強大的背後基座 —— 天工 3.0
天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。
給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本上不需要人去幹預,甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。
這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比,「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的表現提升,其模型技術知識能力提升超過20%,數學/ 推理/ 代碼/ 文創能力提升超過30%。
以搜尋任務為例。在「搜尋增強」模式中,給予一個簡單的搜尋請求,「天工 3.0」不僅會給予一段概括性的回答,還會把一些重要資訊提煉成圖表。
在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它也把這些資訊整理成了心智圖,方便快速查閱。
在語意理解、邏輯推理能力均大幅提升的基礎上,「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息,它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。
這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續優化其表現。這三個面向的累積作用,大大推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。
「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時,崑崙萬維董事長兼CEO 方漢解釋說,「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。 「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優異。
「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。
實現通用人工智慧,
讓每個人更好地塑造和表達自我
在關於AGI 的願景中,我們常聽一些AI企業主管提到,他們想要用AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴展和增強。但在方漢看來,這其中忽略了一個重要問題,如何用 AI 幫助人們更好地理解和表達情感。
在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。
#而對方言的支持則更像文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。
「在AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。
最近,這些內容也被寫入了崑崙萬維的最新使命中。
其實,這種做法在商業上也是有意義的。 「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需求。」方漢解釋。
隨著未來持續的優化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。
當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平台。
這個平台不僅能夠幫助一般人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文本、漫畫、音樂和視頻等多種形式,消費者的內容消費也都在這一個平台上完成,這是崑崙萬維構建的商業邏輯。
「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP,那麼就能創作內容。可以預見的是,所有內容產業都將被重做一遍。戰略的邏輯。
這個時代將被塑造成什麼樣子?我們拭目以待。
以上是首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章!