首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風
在「天工」大模型發布一周年之際,崑崙萬維重磅宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。
自從 AI 讓人類實現音樂創作自由後,連吵架都變得有趣了起來。
在過去的時候,X 平台知名AI 部落客Aran Komatsuzaki 自己寫了一首歌,專門用來表達對另一位AI 科學家— Gary Marcus 的不滿,還用當前大火的Suno 把它生成了出來。要知道,過去,這些大佬們的口水戰主要就是發個帖子,然後你來我往地跟帖。這次,Aran Komatsuzaki 的做法可謂是玩出了新花樣,不知道是不是從「謝帝謝帝我要 diss 你」的靈感得到的。
與Aran Komatsuzaki一樣,國內外很多懂音樂、不懂音樂的人都在嘗試玩Suno等AI音樂創作工具,生成了很多非常有意思的音樂作品。
不過,有許多網友反映,Suno 有時生成中文不太穩定,會出現中文歌曲帶有英文感、生僻字唱錯等問題。
B 站網友針對 Suno 中時所中所產生的評論中閱讀的中文評論文章。視訊位址:https://b23.tv/gVqTUOu
那麼,有沒有一個 AI 音樂生成模型專門針對中文做過優化呢?
崑崙萬維今日面向全社會開放公測的「天工 SkyMusic」就是這樣一個模式。它產生的中文人聲發音清晰、正宗、無異響,沒有出現「百老匯式中文歌」等水土不服的情況。而且,它不僅針對國語做了最佳化,粵語、成都話、北京話等方言語種也照顧到了。
那麼,和 Suno 比,天工 SkyMusic 表現如何?橫向測評的數據顯示,在人聲和BGM 音質、人聲自然度、發音可懂度等幾個指標上,天工SkyMusic 都更勝一籌,綜合表現超越Suno V3,成為中國首個音樂AIGC 的SOTA模型,也讓中國的自研大模型技術第一次在AIGC 領域領先全球。
如此優異的表現自然離不開強大的基座模型,即崑崙萬維在同一時間發布並開源的大模型「天工 3.0」。該模型擁有 4000 億參數,超越了 3140 億參數的 Grok-1,是全球最大的開源 MoE 大模型。
在 MMBench 等多項權威多模態評量結果中,「天工 3.0」超越 GPT-4V,全球領先。
在這個基座模型的祝福下,天工 SkyMusic 對歌曲的理解更為深刻。它能夠透過歌詞控制情緒變化,並實現如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品情感更加豐富且貼合情境。
那麼,這個模型具體怎麼用?技術路線是怎樣的?它背後的「天工 3.0」又有何創新之處?我們一個接一個來看。
首個國產音樂 SOTA 模型的無限玩法
其實,用天工 SkyMusic 生成歌曲是非常簡單的:你只需要輸入歌名、歌詞,選擇參考曲目,它就能產生風格、唱腔與之類似的歌。
如果你不想自己寫歌詞,也可以試試輸入框右下角的「AI 寫字」功能。它可以從第一句開始寫,每次只生成一句,不滿意的句子可以及時刪掉,直至整首歌創作完成。
當然,你也可以試著用「天工3.0」來寫歌,像是這首《本站》就是我們用「天工3.0」寫出來的:
接下來就是要選擇參考歌曲,這也是天工SkyMusic 的獨特之處,也就是能夠依照範例音源產生音樂。
在這一步,天工 SkyMusic 提供了許多參考曲目,你可以從中挑選,也可以選擇上傳歌曲檔案。在這裡,我們上傳了一首洛天依的歌曲,看看生成效果如何:這種按照範例音源生成音樂的能力極大地豐富了天工 SkyMusic 的玩法。在使用者作品展示區域,我們看到,光是《新造的人》(電影《週處除三害》插曲)就有古風搖滾、DJ 等五個版本。
在試用過程中我們也發現,其實,天工 SkyMusic 產生的音樂涵蓋了饒舌、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓用戶根據哼出來的旋律生成歌曲,這將對專業人士有很大幫助。
目前,天工 SkyMusic 已全面開放,下載「天工」APP 就可以體驗。這是國內目前唯一公開可用的 AI 音樂生成大模型,它的出現填補了國內 AIGC 工具在這一領域的空白。
雖然這個模型還處於起步階段,但已經讓很多人感受到了音樂創作的樂趣。大家用它去改造神曲、二創金曲、改寫古詩助力教育… 發展出了各種音樂創作新方向。
自研類 Sora 架構,技術路線圖已公開
天工 SkyMusic 是端到端的音樂產生模型,因此我們用起來感覺非常簡單。但是,整個模型的開發卻沒有那麼簡單。
首先從技術路線來說,天工SkyMusic 選擇了大模型音樂音訊生成路線,這意味著它直接學習並產生音訊波形,而不是採用符號音樂生成路線(如MIDI)來產生樂譜。這種方法允許樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,從而提供更直接、更高品質的音樂創作體驗。但是,這個方向也更難,需要高昂的算力和資金,因此做的人非常少。
而且,在這個方向中,下決心去攻克「人聲Song」領域的人更少,大部分研究集中於無人聲的BGM 領域,因為前者幾乎沒有任何開放的資料或開源模型可供參考。
頂著這些壓力,崑崙萬維做了無數次研發實驗,投入了大量算力,構建了包含2000 萬首歌曲的數據集(人類有史以來最大的音樂數據集),終於探索出了一個效果好、可復現的方案。而且,他們還把這個方案的技術原理圖公開了。
天工SkyMusic 技術原理圖:Large-scale Transformer 負責譜曲,來學習Music Patches 的上下文控制依賴關係,同時完成音樂可控性;Diffusion Transformer 負責演唱,透過LDM 讓Music Patches 還原成高品質音訊。這套模型架構在處理視訊、音訊和音樂時效果極佳。
#從圖中可以看出,天工 SkyMusic 的框架是類 Sora 的 DiT 技術路徑,不過研發時間是在 Sora 問世之前,因此不可避免地要踩很多坑。
對於產業來說,這張原理圖非常寶貴,因為市面上沒有任何可用的 AI 音樂大模型企業公開自己的技術路徑,包括 SUNO,崑崙萬維是唯一一個。
強大的背後基座 —— 天工 3.0
天工 SkyMusic 的成功離不開它背後的基座模型 —— 天工 3.0。它最核心的升級體現在「獨立思考」方面。這在此模型新增的多輪搜尋與綜合工具呼叫、圖表繪製、研究模式、增強模式等功能中均有所體現。
給定一個資料統計任務,它不僅能夠幫你把資料都收集齊全,還能自己寫程式碼、呼叫各種函數來繪製圖表。各個中間步驟被拆解得條理清晰,後續的執行也基本上不需要人去幹預,甚至連“避免標籤重疊”、“文本居中顯示”這類細節都被考慮到了。這就是「獨立思考」能力的展現。
這種「獨立思考」能力的提升離不開「天工 3.0」在語意理解、邏輯推理等方面的最佳化。與上一代「天工2.0」MoE 大模型相比,「天工3.0」在模型語意理解、邏輯推理以及通用性、泛化性、不確定性知識、學習能力等領域擁有驚人的表現提升,其模型技術知識能力提升超過20%,數學/ 推理/ 代碼/ 文創能力提升超過30%。
以搜尋任務為例。在「搜尋增強」模式中,給予一個簡單的搜尋請求,「天工 3.0」不僅會給予一段概括性的回答,還會把一些重要資訊提煉成圖表。
在「研究」模式中,它還會提供一個「深入研究」模組,去展開討論搜尋Query 中未提到的延伸問題,讓你有一種在讀論文的感覺。最後,它也把這些資訊整理成了心智圖,方便快速查閱。
在語意理解、邏輯推理能力均大幅提升的基礎上,「天工3.0」也針對模型獨立規劃、呼叫、組合外部工具及資訊的能力進行了專項訓練。透過獨立規劃以及呼叫、組合外部工具及訊息,它可以幫助你精準有效率地完成產業研究、產品橫評、資訊分析等各類複雜需求。
這種獨立思考的能力對於人工智慧大模型至關重要。首先,這種能力使得AI 能夠在缺乏直接指令的情況下進行自主推理,提高其處理複雜問題的能力;其次,獨立思考的AI 模型能夠進行創新性的解決方案設計,滿足個性化和場景化的需求;最後,這種能力促使AI 在遇到新奇或變化的環境時,透過自我學習和適應來持續優化其表現。這三個面向的累積作用,大大推動了 AI 技術的應用廣度和深度,使其在多種實際應用中表現出更高的智慧和效率。
「天工3.0」包含了AI 音樂、AI 搜尋、AI 寫作、AI 繪畫等多項大模型能力,談到4000 億參數MoE 大模型「天工3.0」與天工SkyMusic 背後的關係時,崑崙萬維董事長兼CEO 方漢解釋說,「大家知道AI 底座大模型是AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些AIGC 模型)的能力基礎都是文本大模型。 「天工 3.0」新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能,實測效果優異。
「我們的4000 億大模型是給我們所有的面向C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、影片以及動漫產品就會做得更好。
實現通用人工智慧,
讓每個人更好地塑造和表達自我
在關於AGI 的願景中,我們常聽一些AI企業主管提到,他們想要用AI 工具來提高人類社會的生產力和效率。因此,他們大多專注於模型智力的擴展和增強。但在方漢看來,這其中忽略了一個重要問題,如何用 AI 幫助人們更好地理解和表達情感。
在天工 SkyMusic 的音樂作品區,我們看到了很多這樣的例子:學生即將畢業的離愁、青年愛而不得的神傷、中年人養家糊口的疲憊都透過歌聲表達了出來。這是真正的「以歌明志」。
#而對方言的支持則更像文化平權,這是方漢非常看重的一點。未來,他們希望把更多語種加進去,讓每個小語種人群都能輕鬆創作出屬於自己的文化內容。
「在AIGC 領域,我們宏偉的目標是希望全世界每一個人都能平等地去創作內容。我們想要降低所有人的創作門檻,讓大家都能更好地塑造和表達自我。
最近,這些內容也被寫入了崑崙萬維的最新使命中。
其實,這種做法在商業上也是有意義的。 「一旦人人都可以創作音樂之後,我相信任何一個公共場所,比如說每個餐廳、每個酒吧都可以創作出屬於自己的背景音樂,來滿足自己的業務需求。」方漢解釋。
隨著未來持續的優化完善,天工 SkyMusic 會逐漸演變成一個專業且易用的全民音樂創作平台。
當然,崑崙萬維的發力方向不只是音樂。以「天工 3.0」為基礎,他們已經形成了六大 AI 業務矩陣。未來,這些矩陣將組成一個 AI UGC 平台。
這個平台不僅能夠幫助一般人表達自我,還能幫助那些想用 AI 創作內容的創作者完成 IP 創作的全閉環。這個閉環以「好的故事(IP)」為核心,跨越文本、漫畫、音樂和視頻等多種形式,消費者的內容消費也都在這一個平台上完成,這是崑崙萬維構建的商業邏輯。
「我們的本質是讓更多人參加到創作者隊伍裡面去。前提是你要會講一個好的故事。如果你能夠創造一個好的IP,那麼就能創作內容。可以預見的是,所有內容產業都將被重做一遍。戰略的邏輯。
這個時代將被塑造成什麼樣子?我們拭目以待。
以上是首個國產音樂SOTA模型來了!專為中文優化,免費用,不限曲風的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
