New Generation Artificial Intelligence Alliance の公式ニュースによると、AVS3P10 リアルタイム音声コーディング標準は最近重要な進歩を遂げたとのことで、このニュースは 12 月 14 日にこのサイトで公開されました。 2023 年、第 87 回 AVS ワーキング グループ カンファレンスは成都で開幕しました。会議では、「インテリジェント メディア コーディング パート 10 リアルタイム スピーチ」(以下、AVS3P10 と呼びます) WD 1.0 が本会議で検討され、
テンセントが提出した技術ソリューションが RM0 ベースラインとして選択されました。 AVS3P10 リアルタイム音声コーディング。
AVS や ITU-T 標準などの従来の音声コーダは、16 ~ 20kbps のコード レートで高品質のブロードバンド音声を生成できます。 30 ~ 35kbps で、高品質の超広帯域音声、さらにはフルバンド音声を生成できます。ただし、ビット レートがさらに低下すると (たとえば、10kbps 未満)、従来の音声エンコーダの復元品質が大幅に低下し、ユーザー エクスペリエンスに影響を与えます。今年 3 月、84 回目 AVS 会議で、
Tencent は、AVS オーディオ グループのリアルタイム音声通信シナリオ向けに、低ビットレート、高品質の音声システム プロジェクトを立ち上げることを提案しました。需要分析の後、第 85 回 AVS 会議で、AVS は AV3P10 リアルタイム音声コーディング プロジェクトを正式に開始し、AVS オーディオ グループを通じて技術要請を発行しました。 AVS3P10 リアルタイム音声コーディング プロジェクトは、Tencent Conference Teana Lab の Xiao Wei によって推進および維持されます。
第 86 回 AVS 会議で、オーディオ グループは Tencent Conference Tianlai Laboratory から提出された M7886「AVS3P10 音声コーディング参照モデル候補技術ソリューション」提案を検討しました。検討の結果、ソリューションには次のような特徴があることがわかりました。 4 つの機能:
古典的な信号処理やディープ ニューラル ネットワーク テクノロジーなどの人工知能テクノロジーを深く統合し、AI コーデックに属し、
をサポートします。低コード レート、高品質エンコード、リアルタイム エンコードとデコード、およびマルチレート エンコード;
サブバンド エンコードとマルチモード エンコード アーキテクチャに基づいて、低周波信号ディープ ニューラル ネットワークを使用して特徴を抽出し、高周波信号を抽出します。周波数帯域拡張スキームを使用して特徴を抽出し、スカラー量子化とエントロピー コーディングを組み合わせて特徴圧縮を完了します。オープン コーディング ニューラル ネットワーク アーキテクチャの技術的特性を反映し、コード ストリームの前方互換性を確保できます。エンコーディング ニューラル ネットワークを再修正して最適化します。
##今年 11 月 1 日、Tencent Conference Tianlai Lab は AVS3P10 RM0 候補ソリューションの実行可能ファイルを提出し、
AVS3P10 RM0 には明らかな品質上の利点があります
#
さらに、ITU-T P.863 の客観的品質評価実験でも、AVS3P10 RM0 は大きな利点を示しました。まず、8 つのテスト ビット レートすべてにおいて、AVS3P10 RM0 の MOS 値は 4.0 を超え、最大 4.45 に達しました。 AVS3P10 RM0 の品質は、中ビット レートおよび高ビット レートにおける OPUS や EVS などの従来の信号処理エンコーダのパフォーマンスに匹敵し、キャリア グレードの品質に達します。 AI コーデックの分野では、AVS3P10 RM0 は、同様のビット レートで 0.6MOS 以上の品質上の利点があります。上記のテスト結果は、AVS3P10 RM0 が現在の AI コーデックの最高レベルに相当することを示しています
新世代人工知能同盟は、AVS3P10 リアルタイム音声コーディングは新世代の音声コーディングおよびデコーディング技術であると述べています。標準、これが理想 AVS 標準ファミリーへの重要な追加です。
今後、AVS3P10 リアルタイム音声コーディング プロジェクトは確立された計画に従って推進され、2024 年半ばには標準化作業が完了する予定です。 広告文: この記事には、より多くの情報を提供し、上映時間を節約することを目的とした外部ジャンプ リンク (ハイパーリンク、QR コード、パスワードなどを含むがこれらに限定されない) が含まれています。リンク結果は参考用です。このサイトのすべての記事にこの記述が含まれていることにご注意ください
苦情水文学
以上が私の国は AVS3 リアルタイム音声標準の策定において重要な進歩を遂げており、Tencent のソリューションが選択されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。