プロジェクト概要
EnCode 2025 チャレンジにおける私の目標は、高品質で自然かつスムーズな音声インタラクションが可能な AI セールス エージェントを作成し、本物の人間と話しているような体験のような超低遅延の実現に努めることです。最終的に、私は、潜在顧客への挨拶からニーズの理解、関連するコースの推奨まで、オンライン コーチング センターの完全な営業会話をすべてポジティブでフレンドリーで人間のような声で処理できるシステムを構築しました。疲れを知らず、常に最善を尽くしている販売員を想像してみてください。
テクノロジースタック
-
音声処理: ウィスパーラージ V3 ターボ (明確な音声認識を保証します)
-
コアロジック: LLaMA 3.3 70B (インテリジェントな対話の実現)
-
音声出力: F5 TTS (自然でスムーズな音声応答を生成します)
-
データベース: 松ぼっくりベクトル データベース (コンテキスト管理と情報検索用)
-
デモ プラットフォーム: Google Colab
システムの仕組み
システムは 3 つの主要なステップに従います:
- 音声テキスト変換 (STT)
- 大規模言語モデル (LLM)
- テキスト読み上げ (TTS)
フローチャート: ユーザー -> STT -> LLM -> ユーザー
詳細なプロセス:
- 顧客の話 -> ウィスパーがテキストを文字に起こします。
- フェーズ マネージャー (正規表現を使用) は会話のフェーズを追跡します。
- Pinecone はデータベースから関連データを抽出します。
- LLaMA 3.3 70B 完璧な返信を作成します。
- F5 TTS はテキストを自然な音声に変換します。
主な機能
-
インテリジェントな音声選択: 6 つの異なる AI 音声 (男性 2 つ、女性 4 つ) を提供します
-
コンテキスト認識型応答: ベクトル類似性検索テクノロジーに基づく
-
構造化された対話の流れ: 専任のステージマネージャーによって制御
現在の制限事項
-
デモ環境: Google Colab に基づいて実行されます。
-
メモリ制限: コンテキスト ウィンドウの制限は 8,000 トークンです。
-
コンピューティング リソースの消費: リソースの使用量が多いです。
-
API の依存関係: コア機能は複数の API に依存します。
-
高いレイテンシー: 特定のレイテンシーの問題があります。
体験概要
技術的側面:
-
ベクトル データベースの応用: 松ぼっくりベクトル データベースを使用することで、コンテキスト ウィンドウが制限されている場合に、ベクトル データベースがゲームのルールをどのように変更できるかを理解することができました。ミリ秒レベルの類似検索機能は会話履歴や学習データを効率的に処理でき、非常に強力です。
-
ステージ管理の重要性: 会話のステージを明確にすることで、売り込み方や質問内容など、そのステージに関連する例を簡単に組み込むことができます。
-
Web 統合: フロントエンドとバックエンドのデータ対話を効率的に行うために fastapi を使用することが重要です。 Webhook を使用すると、会話全体でデータを交換し、AI 通話を 1 回開始するだけで接続を維持できます。
システム設計:
-
チャンク化の重要性:完全な文を待つのではなく、音声を 5 秒の長さのセグメントに分割して処理すると、ユーザー エクスペリエンスが大幅に向上し、処理時間が短縮されます。これには、精度と速度の最適なバランスを見つける必要があります。
-
モジュラー アーキテクチャの利点: システムを独立したサービス (STT、LLM、TTS) に分解すると、開発とデバッグのプロセスが大幅に簡素化されます。問題が発生した場合、修正が必要な部分をすぐに見つけることができます。
実際の制限:
-
API コスト: 複数の API 呼び出し (Whisper、LLAMA) を管理することで、API の使用を最適化することの重要性を学びました。速度を維持しながら API 呼び出しの数を最小限に抑えることは大きな課題です。
-
レイテンシーの削減: データがインターネットから常に取得され、処理されている場合、レイテンシーを削減することは非常に困難です。今後は、インターネットからデータを転送またはダウンロードする回数を最小限に抑えるよう努めます。
予期せぬ課題:
-
プロンプトワードエンジニアリング: プロンプトワードエンジニアリングは非常に重要であり、モデルが人間のように一貫して表現できるかどうか、または同じ文を繰り返すかどうかを決定します。
-
コンテキスト ウィンドウの制限: 8,000 トークンの制限により、コンテキストをスマートに管理する必要があります。すべての情報を保存する代わりに、ベクター データベースから関連する部分を取得することで、必要な情報をすべて含む LLM の構造を設計できるようになりました。
今後の予定
- マルチスレッドテクノロジーを使用して遅延を削減します。
- 多言語サポートを追加しました。
- 取引を成立させるために最初のリードを獲得した後に顧客に連絡する「リード ボット」など、ボットの種類をさらに追加します。
体験プロジェクト
https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5
GitHub ---
コメント欄に貴重なご提案をお待ちしております!
以上がAI セールス エージェントの構築: 音声から提案まで。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。