音声モードはすぐに会話型 AI の主力機能となり、ユーザーに安心感を与え、音声を通じて最も自然な方法で対話できるようにします。 OpenAI は、500 ミリ秒未満の遅延で動作するリアルタイム AI 音声エージェントの導入により、継続的に道を切り開いてきました。この成果の背後にあるテクノロジーはオープンソースになり、最高品質の応答性の高い音声エージェントの構築を可能にするツールへの比類のないアクセスが可能になりました。
音声モードには、これはすぐに会話型 AI の主力機能となり、ユーザーを安心させ、音声を通じて最も自然な方法で対話できるようにします。 OpenAI は、500 ミリ秒未満の遅延で動作するリアルタイム AI 音声エージェントの導入により、継続的に道を切り開いてきました。この成果の背後にあるテクノロジーはオープンソースとなり、最高品質の応答性の高い音声エージェントの構築を可能にするツールへの比類のないアクセスが可能になりました。
OpenAI は何のパンチも打っていません。 ChatGPT の音声機能を開発したとき、彼らはキャストと監督に最高の才能をもたらし、声が没入型でありながら、自分のものであるかのように感じられるようにしました。その後、400 件のオーディションが現在利用可能な 5 件にまで絞り込まれました。完全に順風満帆だったわけではありません。スカーレット・ヨハンソンとの驚くべき類似点のために同社が「Sky」を公開しなければならなかったときはそうではなかった。
しかし、本当の興奮は最新の開発、つまりこのテクノロジーをローカルで利用できる能力にある。独自の GPU で 500 ミリ秒未満の遅延でリアルタイムの音声合成処理ができることを想像してください。それはもはや遠い夢ではありません。システムは完全にオープンソースになりました。
このような最小限の遅延を実現するために、AI パイプラインは個別のコンポーネントに分割され、それぞれが最適化されています。速度と効率を高めるには:
パイプラインは、ユーザーが話し終えたときの検出を担当する Silero VAD v5 モジュールから始まります。これは、処理の次の段階をトリガーする「ゲートキーパー」です。
フローのこの部分では、Whisper や DeepSpeech などのより高度なモデルを使用して、ユーザーの音声をテキストに文字起こしします。たとえば、Whisper は係数 0.5 でリアルタイムで動作します。したがって、リアルタイムの 2 倍の速度で音声を処理し、約 100 ミリ秒で正確な文字起こしを行うことができます。
文字起こしが進行中、大規模言語モデル (LLM) は可能な応答の予測を同時に開始します。 200 ミリ秒以内に、システムは関連するテキストベースの応答を生成できます。
生成された応答は、高速音声合成を使用して直ちに音声に変換され、高品質の音声を生成するのにさらに 200 ミリ秒かかります。
この驚異的な速度の秘密は並列処理にあります。コンポーネントを順次処理したり、一度に 1 つのタスクを処理したりするのとは対照的に、システムは文字起こし、応答の生成、音声合成を同時に実行します。このエンドツーエンドの設計により、プロセスの各部分が確実に連携して動作し、ユーザー インタラクションを完了するまでにかかる全体的な時間が大幅に短縮されます
たとえば、システムが音声の終了を検出すると、システムはスピーチを開始します。転写プロセス。文字起こしが完了するまでに、言語モデルによって応答が生成され、その直後に音声合成が開始されます。このようなタスクの並列処理により、ユーザーの音声から AI 応答までのインタラクション全体が 500 ミリ秒未満で完了します。
AI 音声エージェントのダウン人間とコンピュータの対話の遅延が 500 ミリ秒に短縮されたことは、人間とコンピュータのシームレスな対話における重要な進歩です。このテクノロジーの使用は、リアルタイムの文字起こし、迅速な応答生成、および音声合成を通じて、非常に応答性の高い会話エクスペリエンスを提供します。
これは、オープンソースのパイプライン全体を使用して、これを統合することが可能になることを意味します。テクノロジーをプロジェクトに取り入れます。開発者は、音声アシスタントやリアルタイム ゲーム アバターなど、さまざまなアプリケーション向けに音声エージェントを微調整してカスタマイズできます。
これは単なる一歩前進ではありません。それは会話型 AI の未来を構築するための招待状です。それで、それを使って何を作りますか?
以上が未来は語る: 超低遅延のリアルタイム AI 音声エージェントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。