Google Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張
2019 年、Google は、Pixel 携帯電話向けに Android システムで録音ソフトウェア Recorder をリリースしました。これは、iOS でのボイスメモに相当し、オーディオ ファイルの録音、管理、編集をサポートします。それ以来、Google は音声認識、オーディオ イベント検出、タイトルの自動生成、スマート ブラウジングなど、多数の機械学習ベースの機能を Recorder に次々と追加してきました。
ただし、録音ファイルが長く、複数の話者が含まれている場合、Recorder ユーザーの中には使用中に不便を感じる人もいます。音声認識によって取得されたテキストだけでは、各文を誰が言ったかを判断できないためです。今年の Made By Google カンファレンスで、Google はレコーダー アプリの自動スピーカー アノテーション機能を発表しました。この機能は、音声認識されたテキストに匿名の話者タグ (「話者 1」や「話者 2」など) をリアルタイムで追加します。この機能により、記録されたテキストの読みやすさと実用性が大幅に向上します。この機能の背後にあるテクノロジーは、スピーカー ダイアライゼーションと呼ばれます。 Google は、2022 年の ICASSP カンファレンスで、Turn-to-Diarize と呼ばれる声紋セグメンテーションおよびクラスタリング システムを初めて発表しました。
#左の図: 話者の注釈がオフになっている録音テキスト。右: 話者の注釈がオンになっている録音テキスト。
システム アーキテクチャGoogle の Turn-to-Diarize システムには、モバイル デバイスを実装するための高度に最適化された複数のモデルとアルゴリズムが含まれています。数時間にわたる音声の声紋セグメンテーションとクラスタリング処理は、非常に少ないコンピューティング リソースで完了します。このシステムは主に、話者識別の切り替えを検出する話者切り替え検出モデル、各話者の音声特徴を抽出する声紋エンコーダ モデル、話者アノテーションを効率的に完了できる多段階システムの 3 つのコンポーネントで構成されます。すべてのコンポーネントは完全にユーザーのデバイス上で実行され、サーバー接続には依存しません。
Turn-to-Diarize システムのアーキテクチャ図。
スピーカー スイッチ検出システムの最初のコンポーネントは、トランス トランスデューサー (T-T) に基づくスピーカー スイッチ検出モデルです。このモデルは、音響特徴シーケンスを特殊文字 を含むテキスト シーケンスに変換できます。特殊文字 は、スピーカー切り替えイベントを示します。 Google が公開した以前の論文では、特定の講演者の身元を表すために や などの特殊文字が使用されていました。最新のシステムでは、 文字は特定の ID に限定されないため、その適用範囲もさらに広がります。
ほとんどのアプリケーションでは、声紋セグメンテーションおよびクラスタリング システムの出力は通常、ユーザーに直接表示されず、音声認識モデルの出力と結合されます。音声認識モデルはトレーニング プロセス中に単語の誤り率に合わせて最適化されているため、話者切り替え検出モデルは単語の誤り率に対する耐性が高くなりますが、特殊文字 の精度により注意を払います。これに基づいて、Google は新しい文字ベースの損失関数を提案しました。これにより、より小さなモデルだけで話者切り替えイベント を正確に検出できるようになります。
声紋特徴の抽出音声信号が話者変換イベントに従ってセグメント化された後、システムは声紋エンコーダ モデルを通じて各話者セグメントの特徴を抽出します。声紋情報のコード、つまり d ベクトル。 Google が公開した以前の論文では、声紋埋め込みコードは一般的に固定長の音声から抽出されていました。対照的に、この新しいシステムには多くの改善点があります。まず、新しいシステムでは、複数の話者情報を含むセグメントから声紋埋め込みを抽出することが回避されるため、埋め込みの全体的な品質が向上します。第二に、各声紋埋め込みコードに対応する音声断片は比較的長いため、話者に対応するより多くの声紋情報が含まれます。最後に、この方法で得られる最終的な声紋埋め込みコード シーケンスの長さは短くなり、後続のクラスタリング アルゴリズムの計算コストが低くなります。
多段階クラスタリング
声紋セグメンテーションとクラスタリングの最後のステップは、前のステップで取得した声紋埋め込みコード シーケンスをクラスタリングすることです。ユーザーが Recorder アプリを使用して生成する録音は、わずか数秒から 18 時間にも及ぶ場合があるため、クラスタリング アルゴリズムの主な課題は、さまざまな長さの声紋埋め込みシーケンスを処理できるようにすることです。
この目的を達成するために、Google の多段階クラスタリング戦略は、いくつかの異なるクラスタリング アルゴリズムの利点を巧みに組み合わせています。短いシーケンスの場合、この戦略では集約階層クラスタリング (AHC) が使用されます。中程度の長さのシーケンスの場合、この方法ではスペクトル クラスタリングを使用し、固有値の最大マージン法を利用して話者の数を正確に推定します。長いシーケンスの場合、この方法ではまず集約階層クラスタリングを使用してシーケンスを前処理し、次にスペクトル クラスタリングを呼び出します。これにより、クラスタリング ステップの計算コストが削減されます。ストリーミング処理プロセス全体で、以前のクラスタリング結果を動的にキャッシュして再利用することで、各クラスタリング アルゴリズム呼び出しの時間計算量と空間計算量の上限を定数に設定できます。
多段階クラスタリング戦略は、デバイス側アプリケーションの重要な最適化です。デバイス側では、CPU、メモリ、バッテリーなどのリソースが通常不足しているためです。この戦略は、音声を数時間処理した後でも低電力状態で動作できます。この戦略の一定の複雑さの上限は通常、特定のデバイス モデルに応じて調整して、精度とパフォーマンスのバランスを実現できます。
# 多段階クラスタリング戦略の概略図。
リアルタイム修正とユーザー注釈Turn-to-Diarize はリアルタイム ストリーミング処理システムであるため、モデルが音声が増えると、予測された話者ラベルがより正確になります。この目的を達成するために、Recorder アプリケーションは、ユーザーの録音プロセス中に以前に予測された話者ラベルを継続的に修正し、ユーザーが現在の画面に表示する話者ラベルが常により正確なラベルであることを保証します。
同時に、レコーダー アプリケーションのユーザー インターフェイスでは、ユーザーが各録音のスピーカー タグの名前を変更することもできます。たとえば、「スピーカー 2」の名前を「自動車ディーラー」に変更します。 Business」というように、ユーザーが読みやすく、覚えやすくなっています。
Recorder を使用すると、読みやすくするためにスピーカー タグの名前を変更できます。
今後の取り組みGoogle は、自社開発チップ Google Tensor を最新の Pixel スマートフォンに搭載しました。現在の声紋セグメンテーションおよびクラスタリング システムは、主に Google Tensor の CPU モジュール上で動作します。将来的に、Google はエネルギー消費をさらに削減するために、Google Tensor の TPU モジュール上で声紋セグメンテーションおよびクラスタリング システムを実行する予定です。さらに、Google は、多言語の声紋エンコーダと音声認識モデルの助けを借りて、この機能を英語に加えて他の言語にも拡張したいと考えています。
以上がGoogle Recorderに自動スピーカーアノテーションが実装され、その機能とiOSボイスメモが再び拡張の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています
