著者|Migüel Jetté
コンパイラ|bluemin
編集者|Chen Caixian
過去 2 年間、自動音声認識 (ASR) は、次の分野で広く使用されてきました。商用利用において重要な開発が達成されており、測定指標の 1 つは、Alexa、Rev、AssemblyAI、ASAPP など、完全にニューラル ネットワークに基づいた複数のエンタープライズ レベルの ASR モデルが正常に起動されたことです。 2016 年、Microsoft Research は、25 年前の「Switchboard」データ セットにおいて、そのモデルが人間レベルのパフォーマンス (単語誤り率で測定) に達したことを発表する記事を発表しました。 ASR の精度は向上し続けており、より多くのデータセットやユースケースで人間レベルのパフォーマンスに達しています。
画像出典: Awni Hannun のブログ投稿「音声認識は解決されていない」
ASR テクノロジの認識精度が大幅に向上したことで、アプリケーション シナリオは次のようになります。私たちは、ASR の商業利用はまだピークではないと考えており、この分野での研究や市場への応用はまだ模索されていません。 AI 音声関連の研究と商用システムは、今後 10 年間で次の 5 つの分野に焦点を当てると予測しています:
#1. 多言語 ASR モデル 「今後 10 年間で、私たちは真の多言語モデルを実稼働環境に展開し、開発者が誰もがどの言語でも理解できるアプリケーションを構築できるようにし、音声認識の力を真に世界に解き放ちます。」 出典: Alexis Conneau et al. が 2020 年に発表した論文「音声認識のための教師なし異言語表現学習」今日の商用 ASR モデルは主に英語のデータセットでトレーニングされており、したがって、英語入力の精度が高くなります。データの入手可能性と市場の需要により、学術界や産業界では英語に対する長期的な関心が高まっています。フランス語、スペイン語、ポルトガル語、ドイツ語などの一般的な商用言語の認識精度も妥当ですが、トレーニング データが限られており、ASR 出力品質が比較的低い言語には明らかにロングテールが存在します。 さらに、ほとんどのビジネス システムは単一言語に基づいており、多くの社会に特有の多言語シナリオには適用できません。多言語主義は、二言語使用国におけるメディア番組など、連続した言語の形をとることがあります。 Amazon は最近、言語識別 (LID) と ASR を統合した製品を発売することで、この問題への対処において大きな進歩を遂げました。対照的に、トランスランゲージング (コードスイッチングとも呼ばれる) は、個人が 2 つの言語の単語と文法を同じ文内で組み合わせるために使用する言語システムです。これは、学術界が興味深い進歩を続けている分野です。 自然言語処理の分野が多言語アプローチを採用しているのと同じように、今後 10 年で ASR もそれに続くことになるでしょう。新しいエンドツーエンドテクノロジーを活用する方法を学びながら、複数の言語間で学習を伝達できる大規模な多言語モデルをトレーニングします。 Meta の XLS-R は良い例です。あるデモでは、ユーザーは言語を指定せずに 21 の言語のいずれかを話すことができ、モデルは最終的に英語に翻訳されます。言語間の類似点を理解して適用することで、これらのよりスマートな ASR システムは、リソースの少ない言語や混合言語のユースケースに高品質の ASR 可用性を提供し、商用グレードのアプリケーションを可能にします。 #2. 豊富な標準化された出力オブジェクト「今後 10 年間で、商用 ASR システムはより豊富な転写オブジェクトを出力すると考えています。単純な単語だけではありません。さらに、このより豊富な出力が W3C などの標準化団体によって承認され、すべての API が同様に構築された出力を返すようになることが予想されます。これにより、世界中の誰もがさらに自由に発言できるようになります。 " 米国国立標準技術研究所 (NIST) には、「リッチ トランスクリプション」を研究する長い伝統がありますが、それを ASR 出力用の標準化されたスケーラブルな形式に組み込むという点ではほんの表面をなぞっただけです。リッチ トランスクリプションの概念には、当初、大文字化、句読点、日記化が含まれていましたが、ある程度、話者の役割やさまざまな非言語音声イベントに拡張されました。期待されるイノベーションには、さまざまな話者からの重なり合う音声、さまざまな感情やその他のパラ言語的特徴の転写、さらには非言語的、さらには人間以外のさまざまな音声シーンやイベントの転写、テキストベースまたは言語の多様性の転写などが含まれます。タナカらは、ユーザーがさまざまな豊富さの転写オプションから選択したいシナリオを描いており、明らかに、予測される追加情報の量と性質は、下流のアプリケーションに応じて指定可能です。従来の ASR システムは、話し言葉を認識するプロセスで複数の仮説のグリッドを生成することができ、これは人間による文字起こし、音声対話システム、および情報検索に大きな利点があることが証明されています。 n-best の情報を豊富な出力形式で含めることで、より多くのユーザーが ASR システムを使用するようになり、ユーザー エクスペリエンスが向上します。現在、音声デコード中に生成される、または生成される可能性のある追加情報を構造化または保存するための標準は存在しませんが、CallMiner の Open Speech Transcription Standard (OVTS) はこの方向への確かな一歩であり、企業が複数の ASR ベンダーを探索して選択することを容易にします。
将来的には、ASR システムは標準形式でより豊富な出力を生成し、より強力なダウンストリーム アプリケーションをサポートすると予測しています。たとえば、ASR システムは可能なメッシュの全範囲を出力し、アプリケーションはトランスクリプトの編集時にこの追加データを使用してインテリジェントな自動トランスクリプションを実行できます。同様に、検出された地域の方言、アクセント、周囲の騒音、雰囲気などの追加のメタデータを含む ASR 転写により、より強力な検索アプリケーションが可能になります。
「この 10 年間で、大規模な ASR (つまり、民営化、手頃な価格、信頼性の高い、これらのシステムは、ビデオを検索し、私たちが関与するすべてのメディア コンテンツにインデックスを付け、世界中の聴覚障害のある消費者がすべてのビデオにアクセスできるようにすることができます。ASR は次の課題への答えとなります。オーディオとビデオのすべてのキーは、アクセスして実行できるようにするためのものです。」
おそらく誰もがオーディオおよびビデオ ソフトウェアを頻繁に使用します。ポッドキャスト、ソーシャルメディアストリーム、オンラインビデオ、ライブグループチャット、Zoomミーティングなど。しかし、実際に転写される関連コンテンツはほとんどありません。現在、コンテンツの転写は ASR API の最大の市場の 1 つとなっており、特にその精度と手頃な価格を考慮すると、今後 10 年間で急激に成長すると予想されます。そうは言っても、ASR トランスクリプションは現在、特定のアプリケーション (ブロードキャスト ビデオ、特定の会議やポッドキャストなど) にのみ使用されています。その結果、多くの人がこのメディア コンテンツにアクセスできず、放送やイベント後に関連情報を見つけることが困難になっています。
将来的には、この状況は変わるでしょう。マット・トンプソン氏が 2010 年に予測したように、ある時点で ASR は安価になり、彼の言うところの「スピーチ可能性」を私たちが経験できるほど普及するでしょう。将来的には、ほぼすべてのオーディオおよびビデオ コンテンツが文字起こしされ、即座にアクセス可能、保存可能、および大規模な検索が可能になると予測しています。しかし、ASR の開発はここで終わるわけではなく、これらのコンテンツが実用的なものになることを期待しています。私たちは、消費または関与するそれぞれの音声やビデオが、ポッドキャストや会議から自動的に生成される洞察や、ビデオ内の重要な瞬間の自動要約など、追加のコンテキストを提供することを望んでいます。私たちは、NLP システムが上記の処理をルーチン化できることを望んでいます。
「今世紀末までに、私たちは次のような進化する ASR システムを手に入れるでしょう。 「人間の助けや自己監視によって継続的に学習する生体。これらのシステムは現実世界のさまざまなソースから学習し、新しい単語や言語の変種を非同期ではなくリアルタイムで理解し、自己デバッグし、さまざまな使用法を自動的に監視します。」
ASR が主流になり、カバーするユースケースの数が増えるにつれ、人間とマシンのコラボレーションが重要な役割を果たすようになるでしょう。 ASR モデルのトレーニングはこれをよく反映しています。現在、オープンソース データセットと事前トレーニングされたモデルにより、ASR ベンダーの参入障壁が低くなりました。ただし、トレーニング プロセスは依然として非常に単純です。データの収集、データの注釈付け、モデルのトレーニング、結果の評価、モデルの改善です。しかし、これはプロセスに時間がかかり、多くの場合、調整の難しさやデータ不足によりエラーが発生しやすくなります。 Garnerin らは、メタデータの欠落とコーパス全体の表現の不一致により、ASR パフォーマンスの同等の精度を保証することが困難であることを観察しましたが、これは Reid と Walker がメタデータ標準の開発時に解決しようとした問題でもあります。
将来的には、人間はインテリジェントな手段を通じて ASR トレーニングを効率的に監督し、機械学習の加速においてますます重要な役割を果たすようになるでしょう。人間参加型アプローチでは、人間のレビュー担当者を機械学習/フィードバック ループに配置し、モデル結果の継続的なレビューと調整を可能にします。これにより、機械学習がより高速かつ効率的になり、より高品質な出力が得られます。今年の初めに、ASR の改善により、Rev の人間の文字起こし者 (「Revvers」と呼ばれます) が ASR ドラフトに対して後編集を実行して生産性を高める方法について議論しました。 Revver の転写は、改良された ASR モデルに直接入力でき、好循環を形成します。
人間の言語の専門家が引き続き ASR に不可欠な分野の 1 つは、逆テキスト正規化 (ITN) です。ITN では、認識された文字列 (「5 ドル」など) を、期待される書面形式 (「 $5」など) に変換します。 Pusateri らは「手作りの文法と統計モデル」を使用したハイブリッド アプローチを提案し、Zhang らはこれらの方針に沿って、手作りの FST で RNN を制約することで継続しました。
「すべての AI システムと同様、将来の ASR システムは、より厳格な AI 倫理原則に準拠し、システムが「誰もが平等に、より高度な説明可能性を持ち、自らの決定に責任を持ち、ユーザーとそのデータのプライバシーを尊重します。」
将来の ASR システム AI の 4 つの原則公平性、説明可能性、プライバシーの尊重、説明責任などの倫理が遵守されます。
公平性: 公平な ASR システムは、話者の背景、社会経済的地位、その他の特性に関係なく音声を認識します。このようなシステムを構築するには、モデルとトレーニング データのバイアスを特定して軽減する必要があることに注意してください。幸いなことに、政府、NGO、企業はすでに偏見を特定し軽減するためのインフラストラクチャの構築に取り組んでいます。
解釈可能性: ASR システムはもはや「ブラック ボックス」ではなくなります。データの収集と分析、モデルのパフォーマンス、および出力プロセスを必要に応じて解釈します。この追加の透明性要件により、モデルのトレーニングとパフォーマンスを人間がより適切に監視できるようになります。 Gerlings らと同様に、私たちは解釈可能性をさまざまな利害関係者 (研究者、開発者、顧客、そして Rev の場合は転写担当者を含む) の観点から見ています。研究者は、問題を軽減するために誤ったテキストを出力する理由を知りたいと思うかもしれませんが、転写担当者は、特に ASR の方が人よりも効率的である可能性がある騒がしい状況では、ASR がその有効性を評価するのに役立つように、なぜ ASR がそのように考えるのかの証拠を必要としているかもしれません。」 「もっとよく聞いてください。」 Weitz らは、音声キーワード認識のコンテキストにおいて、エンドユーザーの解釈可能性に向けた重要な第一歩を踏み出しました。 Laguarta と Subirana は、アルツハイマー病検出のための音声バイオマーカー システムに臨床医主導の通訳を組み込みました。
プライバシーの尊重:「音声」はさまざまな米国法および国際法の下で「個人データ」とみなされ、したがって、音声録音の収集と処理は厳格な個人プライバシー保護の対象となります。 Rev では、データ セキュリティと制御機能をすでに提供しており、将来の ASR システムではユーザー データのプライバシーとモデルのプライバシーがさらに尊重されます。多くの場合、これには ASR モデルをエッジ (デバイスまたはブラウザー上) にプッシュすることが含まれる可能性が高くなります。音声プライバシーの課題により、この分野の研究が推進されており、欧州連合などの多くの管轄区域が立法化への取り組みを開始しています。プライバシーを保護する機械学習の分野では、テクノロジーのこの重要な側面に注目が集まり、社会に広く受け入れられ、信頼されるようになることが期待されています。
説明責任: ASR システムを監視して、最初の 3 つの原則が遵守されていることを確認します。そのためには、必要な監視システムを設計および開発し、調査結果に応じて行動を起こすためのリソースとインフラストラクチャへの投資が必要になります。 ASR システムを導入する企業は、テクノロジーの使用に責任を負い、ASR の倫理原則を遵守するために特別な努力を払うことになります。 ASR システムの設計者、保守者、および利用者としての人間は、これらの原則の実装と強制を担当することになることは言及する価値があります。これは、人間とマシンのコラボレーションのもう 1 つの例です。
参考リンク: https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/
以上が今後 10 年間で、AI 音声認識は次の 5 つの方向に発展しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。