2024 ICASSP|ByteDance ストリーミング オーディオ チームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決
今年の ICASSP 2024 のさまざまなオーディオ インターナショナル チャレンジでは、ByteDance ストリーミング オーディオ チームがノースウェスタン工科大学のオーディオ音声および言語処理研究室と協力して、パケット損失隠蔽 (PLC) と音質復元を実行しました。 、SSI) 2 つのチャレンジトラックでは、複数の指標で好成績を収め、それぞれ 1 位と 2 位を獲得し、国際トップレベルに達しました。
ICASSP サミットのオーディオ チャレンジは、さまざまな研究機関によるオーディオ効果と音質向上に関する研究を促進することを目的として、トップの国際オーディオ会議 ICASSP とマイクロソフトが共同で立ち上げたものです。 Amazon、Tencent、Alibaba、Baidu、Kuaishou、中国科学院、北西工科大学、その他多くの世界的に有名な企業や科学研究機関が参加しました。ストリーミング メディアの分野におけるテクノロジーの継続的な発展に伴い、サウンドをクリアで本物にすることは、オーディオ テクノロジー業界の発展において避けられない傾向となっています。ユーザーにより良いオーディオ体験を提供する方法に焦点を当て、複数の研究チームが、オーディオ収集の欠陥、アルゴリズム処理の欠陥、コーディングおよびデコーディングの欠陥への対処方法を含む、収集から転送までのオーディオのエンドツーエンドの最適化を実行しました。 、ネットワーク伝送障害。統合修復を待ちます。このチャレンジでは、ByteDance ストリーミング オーディオ チームが、実際のビジネス実装シナリオに基づいて、パケット損失補償と一般的な音質修復の 2 つのチャレンジ トラックに参加しました。
ICASP PLC Challenge は、ネットワーク IP 通話における長時間のパケット損失とフルバンド オーディオ (48kHz のサンプリング レート) 処理の問題を解決することを目的としています。この課題には、厳しい遅延制約があり、同時に、ネットワークの悪条件を反映する要求の厳しいデータセットが提供されます。主観評価は P.804 多次元オーディオ品質評価手法を使用して行われ、参加システムによって生成された音声の明瞭度の評価にも WER が使用されます。ストリーミング オーディオ テクノロジー チームは、モデル構造を最適化することで、パケット損失補償モデルの複雑さを効果的に軽減しました。同時に、マルチディスクリミネーター敵対的トレーニングとマルチタスク学習を通じて、パケット損失補償モデルは、高品質かつ高明瞭度でパケット損失フラグメントを復元でき、最終的に1位を達成しました。
ICASP SSI Challenge は、通信システムにおける音声信号が直面する 5 種類の問題、つまり周波数応答歪み、不連続歪み、ラウドネス歪み、ノイズ、残響を解決することを目的としています。このチャレンジでは、モデルの遅延と因果関係を厳密に設定することを前提に、ITU-TP.804規格に基づく主観的な意見スコアと音声認識率を用いて総合的にランキングを判定します。ストリーミング テクノロジー チームは、2 段階のモデル構造を使用して、複雑な修復問題を複数のサブタスクに単純化します。第 1 段階では、主に周波数応答歪み、不連続性歪み、ラウドネス歪みを修復し、予備的なノイズ低減と残響除去を実行します。第 2 段階 この段階では、第 1 段階で生成されたアーティファクトと残留ノイズがさらに除去されます。最終的に、チームはリアルタイム トラックで 2 位を獲得しました。
パケットロス補償システム
48kHzフルバンドオーディオ処理の複雑さの問題を解決するために、パケット損失補償システム 周波数領域モデルが開発され、オーディオは周波数に応じて 0 ~ 8kHz と 8 ~ 24kHz の 2 つのサブバンドに分割され、並列処理されます。主な計算量を聴覚への影響が大きい0~8kHzの周波数帯域に集中させることで、低複雑かつ高品質なパケットロス補償を実現します。長い間隔のパケット損失の問題に対処するために、時間周波数拡張畳み込みモジュール (TFDCM) がコーデックの各層の後に追加され、畳み込みカーネルのサイズを小さく保ちながら、因果関係を介して長期的なパケット損失をキャプチャします。時間と周波数の次元で層ごとに拡張された畳み込み、時刻歴情報と周波数相関。
高品質なオーディオを補うために、周波数ドメイン多重解像度ディスクリミネーター、時間ドメインマルチ期間ディスクリミネーター、MetricGAN を組み合わせて敵対的生成トレーニングを実行し、生成されるオーディオサウンドを優れたものにします。長い間隔のパケット損失と明瞭度の問題については、マルチタスク学習フレームワークが使用されます。通常の音声信号類似性学習に加えて、基本周波数予測とささやきベースの意味理解損失関数も導入されています。 100msを超えるパケットロスフラグメントを高品質に復元でき、復元された音声は非常に明瞭であり、単語正解率(WAcc)指標が全参加チームトップとなり、総合評価スコアは同率1位となっている。
パケットロス補償モデル構成図
音質修復システム
複数の歪みの影響を受けるオーディオを同時に修復するために、構築システムでは 2 段階のモデル アーキテクチャが使用され、異なる段階で異なる歪みを処理することに重点が置かれています。第 1 段階のモデルは、マッピングを使用して修復されたオーディオの複雑なスペクトルを直接予測するため、このモデルはオーディオ欠落成分を生成し、同時に干渉信号を除去する機能を備えています。長い間、エンコーダの時間周波数畳み込みモジュール (TFCM) がデコーダに導入されていましたが、マッピング方法の不安定性によりアーティファクトが発生する可能性があるため、マスキング (Mask) を使用する 2 段階のモデルが導入され、サブ- バンドからフルバンドへのモデリング手法は、周波数帯域のきめ細かいモデリングを実行して、第 1 段階のモデルによって生成されたアーチファクトや残留ノイズをさらに除去します。
生成されたオーディオコンポーネントの自然性を向上させるために、敵対的生成ネットワークフレームワークが導入され、モデルトレーニングを支援するために多重解像度弁別器と分子帯域多重解像度弁別器が使用されます。同時に、トレーニング中に多段階モデルをより簡単に収束させるために、最初に 2 段階モデルがノイズ低減と残響除去タスクで事前トレーニングされ、次にトレーニングされた 1 段階モデルのパラメーターが調整されます。段階モデルは共同トレーニング用にカスケードされるため、モデルの収束が加速されます。
音質修復モデル構造の概略図
チーム紹介
Bytedance ストリーミング オーディオ チーム、専任グローバル インターネット上で高品質、低遅延のリアルタイム オーディオおよびビデオ通信機能を提供し、開発者が音声通話、ビデオ通話、インタラクティブ ライブ ブロードキャスト、リツイート ライブ ブロードキャストなどの豊富なシーン機能を迅速に構築できるようにします。現在、インタラクティブな機能がカバーされています。エンターテイメント、教育、会議、ゲーム、自動車、金融、IoT などのリアルタイム オーディオおよびビデオ インタラクティブ シナリオは、何億ものユーザーにサービスを提供しています。
以上が2024 ICASSP|ByteDance ストリーミング オーディオ チームによる革新的なソリューション: パケット損失補償と一般的な音質修復の問題を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ
