ホームページ テクノロジー周辺機器 AI リアルタイム通信におけるAIノイズリダクション技術について話しましょう

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

Apr 12, 2023 pm 01:07 PM
ai ディープラーニング

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

パート 01 概要

##リアルタイム オーディオとビデオ通信のシナリオでは、マイクがユーザーの音声を収集するときに、大量の環境ノイズも収集します。従来のノイズ低減アルゴリズムは、定常ノイズ (ファンの音、ホワイト ノイズ、回路ノイズ フロアなど) に対してのみ一定の効果しかありません。 )、非定常的な過渡騒音(騒がしいレストランなど)には一定の効果があります(騒音、地下鉄の環境騒音、家庭のキッチンの騒音など)騒音低減効果は低く、ユーザーの通話体験に深刻な影響を与えます。家庭やオフィスなどの複雑なシナリオにおける何百もの非定常ノイズ問題に対応するため、統合通信システム部門のエコロジカル・エンパワーメント・チームは、GRU モデルに基づいた AI オーディオ・ノイズ低減テクノロジーを独自に開発し、アルゴリズムとエンジニアリングの最適化を通じて、ノイズ低減モデルのサイズが縮小され、2.4MB から 82KB に圧縮され、実行メモリが約 65% 削減され、計算量が約 186Mflops から 42Mflops に最適化され、実行効率が 77% 向上しました。テストデータセット(実験環境)では、人の声と騒音を効果的に分離でき、通話音声品質のMosスコア(平均評価値)が4.25に向上しました。

#この記事では、私たちのチームがディープラーニングに基づいてリアルタイムのノイズ抑制をどのように行い、それをモバイル端末と Jiaqin APP に実装するかを紹介します。全文は以下のように構成され、ノイズの分類とノイズ問題を解決するためのアルゴリズムの選択方法、アルゴリズムの設計方法と深層学習による AI モデルのトレーニング方法、最後に現在の AI の効果と主な用途について紹介します。ノイズリダクション、シーン。

パート 02 ノイズ分類とノイズ低減アルゴリズムの選択

# #リアルタイム オーディオおよびビデオ アプリケーションのシナリオでは、デバイスは複雑な音響環境にあります。マイクが音声信号を収集する際、大量のノイズも収集するため、リアルタイム オーディオの品質にとって非常に大きな課題となります。そしてビデオ。ノイズにはさまざまな種類があります。ノイズの数学的統計特性に従って、ノイズは次の 2 つのカテゴリに分類できます。

定常ノイズ: 騒音の統計 ホワイトノイズ、扇風機、エアコン、車内騒音など、比較的長期間にわたって特性が変化しないもの;

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

非定常騒音: 騒音の統計的特性は時間の経過とともに変化します(騒がしいレストランなど)。 、地下鉄の駅、オフィス、家庭のキッチンなど。

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

#リアルタイム オーディオおよびビデオ アプリケーションでは、通話はさまざまな影響を受けやすくなります。ノイズ干渉の種類 これはエクスペリエンスに影響を与えるため、リアルタイム オーディオおよびビデオでは、リアルタイム オーディオ ノイズ リダクションが重要な機能になっています。エアコンのヒューヒュー音や録音機器のノイズフロアなどの定常的なノイズの場合、時間の経過とともに大きく変化することはなく、単純な減算によって推定および予測して除去することができます。共通するスペクトル減算、ウィナー フィルタリング、ウェーブレットなどがあります変身。道路を車がビュンビュン走る音、レストランで皿がぶつかる音、家庭のキッチンで鍋やフライパンがぶつかる音などの非定常騒音はすべてランダムかつ予期せず発生するため、推定したり予測したりすることは不可能です。 。 修理済み。従来のアルゴリズムでは、非定常ノイズを推定して除去することが困難であるため、深層学習アルゴリズムを使用します。

パート 03 ディープラーニング ノイズ低減アルゴリズムの設計

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

さまざまなノイズシーンに対するオーディオ SDK のノイズリダクション機能を改善し、従来のノイズリダクションアルゴリズムの欠点を補うために、RNN に基づいた AI ノイズリダクションモジュールを開発しました。 、従来のノイズリダクション技術とディープラーニング技術を組み合わせました。家庭やオフィスでの使用シナリオの騒音低減処理に焦点を当て、オフィスでのキーボードのタイピング音、机や事務用品の引きずり音、椅子の引きずり音、キッチンの摩擦音など、多数の屋内騒音タイプが騒音データセットに追加されています。自宅での騒音、床のバタンと落ちる音など。

#同時に、モバイル端末上でリアルタイムの音声処理を実装するために、AI オーディオノイズ低減アルゴリズムが計算オーバーヘッドを制御しますライブラリのサイズは非常に小さいレベルです。計算オーバーヘッドに関しては、48KHz を例にとると、音声の各フレームの RNN ネットワーク処理には約 17.5Mflops のみが必要で、FFT と IFFT には音声の各フレームの約 7.5Mflops が必要で、特徴抽出には約 12Mflops が必要で、合計で約 42Mflops になります。計算量は約 48KHz Opus コーデックと同等であり、あるブランドのミッドレンジ携帯電話モデルでは、統計によると、RNN ノイズ リダクション モジュールの CPU 使用率は約 4% です。オーディオ ライブラリのサイズに関しては、RNN ノイズ リダクション コンパイルをオンにした後、オーディオ エンジン ライブラリのサイズは約 108kB 増加するだけです。

パート 04 ネットワーク モデルと処理プロセス

RNN は他の学習モデル (CNN など) と比較して時間情報を伝達し、オーディオ入力フレームと出力フレームを分離するだけでなく、タイミング信号をモデル化できるため、モジュールは RNN モデルを使用します。同時に、モデルはゲート型リカレント ユニット (GRU、図 1 に示すように) を使用します。実験によると、GRU は音声ノイズ低減タスクにおいて LSTM よりわずかに優れたパフォーマンスを示し、GRU は重みパラメータが少ないため、コンピューティング リソースを節約できます。 。単純なループ ユニットと比較して、GRU には 2 つの追加のゲートがあります。リセット ゲート制御状態は新しい状態を計算するために使用され、更新ゲート制御状態は新しい入力に基づいてどの程度変化するかを示します。この更新ゲートにより、GRU はタイミング情報を長期間記憶できるため、GRU のパフォーマンスが単純な再帰ユニットよりも優れています。

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

図 1 左側は単純な循環ユニットです。右側 GRU

モデルの構造を図 2 に示します。トレーニングされたモデルはオーディオおよびビデオ通信 SDK に埋め込まれます。ハードウェア デバイスのオーディオ ストリームを読み取ることで、オーディオ ストリームはフレーム化され、AI ノイズ リダクション前処理モジュールに送信されます。前処理モジュールは対応する機能を追加します。 ( 特徴) が計算され、トレーニングされたモデルに出力されます。対応するゲイン (ゲイン) 値がモデルを通じて計算され、そのゲイン値を使用して信号が調整され、最終的にノイズ低減の目的が達成されます (図 3 を参照)。 。

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

図 2. GRU ベースの RNN ネットワーク モデル

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

図 3. 上はモデルのトレーニング プロセス、下はモデルのトレーニング プロセスです。リアルタイムノイズ低減プロセス

パート05 AIノイズリダクション処理の効果と実装

図4にキーストロークの比較を示します。ノイズ低減前後の音声スペクトログラム 上部はノイズ低減前のノイズを含む音声信号、赤い長方形のボックスはキーボードの打音ノイズです。下段はノイズリダクション後の音声信号ですが、観察の結果、キーボードの打鍵音はほとんど抑制されており、音声のダメージも低く抑えられていることが分かります。

リアルタイム通信におけるAIノイズリダクション技術について話しましょう

図 4. ノイズの多い音声 (キーボードのタップ音を伴う)ノイズリダクションの前後

現在の AI ノイズリダクションモデルは、携帯電話と Jiaqin APP を改善するために携帯電話と Jiaqin で起動されました 通話ノイズリダクションこのエフェクトは、音声の歪みを維持しながら、家庭やオフィスなどの 100 以上の騒音シナリオで優れた抑制機能を備えています。次の段階では、AI ノイズ低減モデルの計算複雑性の最適化を継続し、IoT 低電力デバイスで推進および使用できるようにします。

以上がリアルタイム通信におけるAIノイズリダクション技術について話しましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CentOS HDFS構成をチェックする方法 CentOS HDFS構成をチェックする方法 Apr 14, 2025 pm 07:21 PM

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Centosはmysqlをインストールします Centosはmysqlをインストールします Apr 14, 2025 pm 08:09 PM

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

Centos8はsshを再起動します Centos8はsshを再起動します Apr 14, 2025 pm 09:00 PM

SSHサービスを再起動するコマンドは次のとおりです。SystemCTL再起動SSHD。詳細な手順:1。端子にアクセスし、サーバーに接続します。 2。コマンドを入力します:SystemCtl RestArt SSHD; 3.サービスステータスの確認:SystemCTLステータスSSHD。

CentosでPytorchの分散トレーニングを操作する方法 CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

See all articles