国産初のミュージックSOTAモデルが登場!中国語専用に最適化されており、無料で使用でき、ジャンルの制限はありません
「Tiangong」大型モデルのリリース 1 周年にあたり、Kunlun Wanwei は、「Tiangong 3.0」ベース モデルと「Tiangong SkyMusic」音楽モデルが正式にパブリック ベータ版を開始したと発表しました。
AIによって人間が自由に音楽を作れるようになったので、喧嘩さえ面白くなってきました。
過去には、生成されたAIブロガーとして有名な小松崎アランさん。ご存知のとおり、以前は、これらの偉い人たちの舌戦は主に投稿を投稿し、その後あなたと私がフォローするというものでした。今回の小松崎アランのアプローチは、「ありがとう、ありがとう、ディスりたい」に触発されたのかは分からないが、新たな仕掛けをしたと言えるだろう。
小松崎アランのように、音楽は知っているけど音楽を知らない国内外の多くの人が、Suno のような AI 音楽作成ツールをプレイして、多くの作品を生み出しています。とても興味深い音楽作品です。
しかし、多くのネチズンは、Suno が不安定な中国語を生成することがあると報告しており、中国語の歌に英語の雰囲気があったり、珍しい単語が間違って歌われたりするなどの問題があると報告しています。
# 。ビデオアドレス: https://b23.tv/gVqTUOu
それでは、特に中国語向けに最適化された AI 音楽生成モデルはあるのでしょうか? 本日公開テスト公開中のKunlun Wanweiの「Tiangong SkyMusic」もそのモデルだ。生成される中国語のボーカルはクリアで本物で、異常な音はなく、「ブロードウェイスタイルの中国の歌」やその他の慣れの問題はありません。さらに、北京語に最適化されているだけでなく、広東語、成都、北京語などの方言にも対応しています。 それでは、Suno と比較して SkyMusic のパフォーマンスはどうなのでしょうか?水平評価データは、SkyMusicがボーカルとBGMの音質、ボーカルの自然さ、発音の明瞭さなどのいくつかの指標で優れていることを示しており、その総合的なパフォーマンスはSuno V3を上回り、中国初の音楽AIGC SOTAモデルも中国が自社開発した大型モデルになりました。 AIGC分野で初めてモデル技術が世界をリード。国産初の音楽遊び放題SOTAモデル
実際、SkyMusic を使用して曲を生成するのは非常に簡単です。曲のタイトルと歌詞を入力し、参照トラックを選択するだけで、似たようなスタイルとボーカルを持つ曲が生成されます。
#自分で歌詞を書きたくない場合は、入力ボックスの右下隅にある「AI ライティング」機能を試すこともできます。最初の文から書くことができ、一度に生成される文は 1 つだけですが、曲全体が完成するまで時間内に削除することができます。
もちろん、「Tiangong 3.0」を使用して曲を書くこともできます。たとえば、この「This Site」という曲は、「Tiangong 3.0」を使用して作成されました。 :
次のステップはリファレンス曲の選択です。これもSkyMusicのユニークな機能で、サンプル音源を元に音楽を生成できます。
このステップでは、SkyMusic が多数のリファレンス トラックを提供しており、その中から選択することも、曲ファイルをアップロードすることもできます。ここでは、生成効果がどのようなものかを確認するために、Luo Tianyi の曲をアップロードしました。 サンプル音源に基づいて音楽を生成するこの機能は、SkyMusic のゲームプレイを大幅に充実させました。ユーザー作品展示エリアでは、「The New Man」(映画「周忠三悪を滅ぼす」のエピソード)には、古代のロックやDJなど5つのバージョンがあることがわかります。
トライアルの過程で、実際、Tiangong SkyMusic によって生成された音楽は、ラップ、フォーク、ファンク、古代スタイル、エレクトロニック、その他のジャンルをカバーしていることもわかりました。次のステップでは、ユーザーが口ずさむメロディーに基づいて曲を生成できるようにする予定で、これは専門家にとって非常に役立ちます。
現在、Tiangong SkyMusic は完全にオープンしており、「Tiangong」アプリをダウンロードすることで体験できます。これは、中国で公的に利用可能な唯一の大規模 AI 音楽生成モデルであり、その登場により、この分野における国内の AIGC ツールのギャップが埋められました。
このモデルはまだ初期段階にありますが、すでに多くの人に音楽制作の楽しさを体験していただいています。誰もがそれを使って、神聖な喜劇を変形させたり、二番目のヒットを生み出したり、教育を支援するために古代の詩を書き直したり...音楽制作のさまざまな新しい方向性を開発したりします。
自社開発の Sora アーキテクチャ、技術ロードマップが公開されました
Tiangong SkyMusic はエンドツーエンドの音楽生成モデルなので、私たちにとっては非常にシンプルに感じられますそれを使うために。ただし、モデル全体の開発はそれほど単純ではありません。
まず、技術的な観点から、SkyMusic は大型モデルの音楽オーディオ生成ルートを選択しました。これは、シンボリックな音楽生成ルート (MIDI など) を使用してオーディオ波形を生成するのではなく、オーディオ波形を直接学習して生成することを意味します。楽譜。このアプローチにより、楽器、ボーカル、メロディー、ボリューム、ノートなどの要素の統合されたエンドツーエンドの生成が可能になり、より直接的で高品質な音楽作成体験が提供されます。ただし、この方向はさらに難しく、高い計算能力と資金を必要とするため、実行する人はほとんどいません。
さらに、この方向では、オープンデータやオープンデータがほとんどないため、「人間の声の歌」の分野を征服しようと決意している人はさらに少なく、ほとんどの研究は声のないBGMの分野に焦点を当てています。前者のモデルはオープンソースで参照できます。
これらのプレッシャーに耐えながら、崑崙万偉氏は数え切れないほどの研究開発実験を実施し、多量の計算能力を投資して、2,000万曲を含むデータセット(人類史上最大の音楽データセット)を構築し、最終的に探索してきました。効果的で再現可能なソリューションが開発されました。さらに、このソリューションの技術概要図も公開しました。
Tiangong SkyMusic の技術図: 大規模な Transformer は、音楽の作曲、音楽パッチのコンテキスト依存関係の学習、および音楽の制御性の完成を担当します。 ; 拡散トランスフォーマーは歌を担当し、音楽パッチは LDM を通じて高品質のオーディオに復元されます。このモデル アーキテクチャは、ビデオ、オーディオ、音楽を処理する場合に非常にうまく機能します。
写真からもわかるように、SkyMusicのフレームワークはSoraと同様のDiT技術路線ですが、開発時期はSoraが登場する前であったため、多くの落とし穴を踏むことは避けられません。
業界にとって、この概略図は非常に貴重です。なぜなら、SUNO を含め、独自の技術的パスを公開している大規模な AI 音楽モデル企業は市場に存在せず、Kunlun Wanwei だけだからです。
その背後にある強力なベース - Tiangong 3.0
SkyMusic の成功は、その背後にある基本モデルである Tiangong 3.0 と切り離すことができません。そのコアのアップグレードは「独立した思考」に反映されています。これは、モデルの新しいマルチラウンド検索と包括的なツール呼び出し、チャート描画、調査モード、拡張モード、その他の機能に反映されています。
データ統計タスクを指定すると、すべてのデータを収集できるだけでなく、独自のコードを記述してさまざまな関数を呼び出してグラフを描画することもできます。中間の各ステップは明確に分解されており、その後の実行では「ラベルの重なりの回避」や「テキストの中央揃え」などの細部まで考慮されています。これは「独立思考力」の体現です。
この「独立思考」能力の向上は、意味理解、論理的推論などの側面における「Tiangong 3.0」の最適化と切り離すことができません。前世代の「Tiangong 2.0」MoE大型モデルと比較して、「Tiangong 3.0」は、モデルの意味理解、論理的推論、汎用性、一般化、不確実性の知識、学習能力などの分野でパフォーマンスが大幅に向上しており、モデルの技術知識能力が向上しています。 20% 以上向上し、数学/推論/コーディング/文化的および創造的な能力は 30% 以上向上しました。
検索タスクを例として考えてみましょう。 「検索強化」モードでは、単純な検索リクエストに対して、「Tiangong 3.0」は概要の回答を提供するだけでなく、いくつかの重要な情報をグラフに絞り込みます。
「リサーチ」モードでは、検索クエリで言及されていない拡張問題について議論するための「詳細なリサーチ」モジュールも提供されます。論文を読むこと。最後に、この情報をマインド マップに整理して、すぐに参照できるようにします。
「Tiangong 3.0」は、大幅に向上した意味理解と論理的推論機能に基づいて、外部ツールと情報を独立して計画、呼び出し、結合するモデルの機能にも重点を置いています。 . 特別な訓練を受けました。独自に計画を立て、外部ツールや情報を呼び出して組み合わせることで、産業調査、製品レビュー、情報分析などのさまざまな複雑なニーズを正確かつ効率的に完了するのに役立ちます。
この独立して考える能力は、大規模な人工知能モデルにとって非常に重要です。第一に、この能力により、AI は直接的な指示がなくても自律的に推論を実行できるようになり、複雑な問題を処理する能力が向上します。第二に、AI モデルが個別のシナリオベースのニーズを満たす革新的なソリューションを設計できるようになります。 AI は、新しい環境や変化する環境に遭遇したときに、自己学習と適応を通じてパフォーマンスを継続的に最適化できるようになります。これら 3 つの側面の累積的な効果により、AI テクノロジーの適用範囲と深さが大幅に促進され、さまざまな実際のアプリケーションにおいて AI テクノロジーがよりインテリジェントかつ効率的になりました。
「Tiangong 3.0」には、AI 音楽、AI 検索、AI ライティング、AI ペイントなどの多くの大型モデル機能が含まれています。4,000 億パラメータの MoE 大型モデル「Tiangong 3.0」と Tiangong SkyMusic At を支えるテクノロジーについて語ります。提携当時、崑崙萬偉会長兼CEOのファン・ハン氏は、「AIベースのラージモデル、特にテキストラージモデルがAIGCの強固な基盤であることは誰もが知っている。Vincent Picture、Vincent Music、Vincent Video(これらのAIGCは)」と説明した。モデル) は機能の基礎です。これらはすべて大きなテキスト モデルです。テキスト モデルの機能が十分に強力でない場合、AIGC の機能は大幅に制限されます。」
この効果は AI ペイントや AI にも反映されます。 「Tiangong 3.0」のその他の機能。 「Tiangong 3.0」では、画像サイズの拡大、画像の向きの調整、マット画像の生成、マット画像の進化、マット画像の拡張などの新機能が追加されており、実際のテスト結果は優れています。
「当社の 4,000 億の大規模モデルは、すべての C エンド製品のサポートを提供するベース モデルです。ベース モデルが優れているほど、ベース モデルもより優れたものになります。」音楽、ゲーム、ビデオ、アニメーション製品はより良い結果をもたらすため、私たちは大きなベースモデルを作ることに非常に強いモチベーションを持っています」とファン・ハン氏は語った。
汎用人工知能を実現し、
誰もが自分自身をより良く形作り、表現できるようにする
AGI に関する私たちのビジョンでは、次のようなことをよく耳にします。 AI 企業の幹部は、AI ツールを使用して人間社会の生産性と効率を向上させたいと述べています。したがって、彼らは主にモデル インテリジェンスの拡張と強化に焦点を当てています。しかしファン・ハン氏の見解では、人々が感情をよりよく理解し、表現できるようAIをどのように活用するかという重要な問題が見落とされているという。
SkyMusic の音楽セクションでは、卒業を控えた学生の悲しみ、愛することができない若者の悲しみ、家族を支える中年の疲労など、多くの例を見てきました。すべては歌を通して表現されます。これこそが本当の「志を表現する歌」なのです。
方言のサポートは、一種の文化的平等に近いものです。それがファン・ハンです。非常に重要な点です。将来的には、さらに多くの言語を追加して、小さな言語を話すすべての人が簡単に独自の文化コンテンツを作成できるようにしたいと考えています。
「AIGC の分野における私たちの野心的な目標は、世界中の誰もが平等にコンテンツを作成できるようになることです。私たちは、誰もが自己をより良く形作り、表現できるように、すべての人にとってクリエイティブの敷居を下げたいと考えています。」ファン・ハン氏は語った。
最近、これらの内容はクンルン・ワンウェイの最新ミッションにも書き込まれています。
実際、このアプローチは商業的にも意味があります。 「誰もが音楽を作成できるようになれば、あらゆるレストランやバーなど、あらゆる公共の場所で独自のビジネス ニーズを満たす独自の BGM を作成できるようになると思います。」と Fang Han 氏は説明しました。
今後も継続的な最適化と改善により、SkyMusic はプロフェッショナルで使いやすい全国的な音楽制作プラットフォームへと徐々に進化していきます。
もちろん、クンルン・ワンウェイの取り組みは音楽だけにとどまりません。 「Tiangong 3.0」に基づいて、6 つの主要な AI ビジネス マトリックスを形成しました。将来的には、これらのマトリックスが AI UGC プラットフォームを形成します。
#このプラットフォームは、一般の人々が自分自身を表現するのに役立つだけでなく、AI を使用してコンテンツを作成し、IP 作成の完全なクローズド ループを完了したいと考えるクリエイターにも役立ちます。このクローズド・ループは「グッド・ストーリー(IP)」を核とし、テキスト、漫画、音楽、ビデオなどのさまざまな形式にまたがり、消費者のコンテンツ消費もこのプラットフォーム上で完結します。これがKunlun Wanweiによって構築されたビジネス・ロジックです。
「私たちの本質は、より多くの人がクリエイターのチームに参加できるようにすることです。前提として、良いストーリーを伝えることができなければなりません。良い IP を作成できれば、コンテンツを作成できます。はい。」あらゆるコンテンツ産業は、クリエイターの数が100倍に拡大し、消費されるコンテンツも100倍に拡大すると予測されています。戦略の論理」とファン・ハン氏は語った。
この時代はどのような形になるのでしょうか?見てみましょう。
以上が国産初のミュージックSOTAモデルが登場!中国語専用に最適化されており、無料で使用でき、ジャンルの制限はありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

人工知能は想像を超えるスピードで発展しています。 GPT-4 がマルチモーダル技術を一般に公開して以来、マルチモーダル大型モデルは急速な開発段階に入り、純粋なモデルの研究開発から垂直分野での探査と応用へと徐々に移行し、あらゆる分野に深く統合されています。インターフェイス インタラクションの分野では、Google や Apple などの国際的なテクノロジー大手が、携帯電話 AI 革命を前進させる唯一の方法とみなされている大規模なマルチモーダル UI モデルの研究開発に投資してきました。このような状況の中で、中国初の大規模UIモデルが誕生しました。 8月17日、国際エクスペリエンスデザインカンファレンス「IXDC2024」において、AI時代のデザインツールであるMotiffは、独自開発したUIマルチモーダルモデル「Motiff Model」を発表した。世界初のUIデザインツールです
