AI セールスエージェントの構築: 音声から提案まで。-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

AI セールスエージェントの構築: 音声から提案まで。

DDD

Jan 18, 2025 pm 06:13 PM

Building an AI Sales Agent: From Voice to Pitch.

プロジェクト概要

EnCode 2025 チャレンジにおける私の目標は、高品質で自然かつスムーズな音声インタラクションが可能な AI セールスエージェントを作成し、本物の人間と話しているような体験のような超低遅延の実現に努めることです。最終的に、私は、潜在顧客への挨拶からニーズの理解、関連するコースの推奨まで、オンラインコーチングセンターの完全な営業会話をすべてポジティブでフレンドリーで人間のような声で処理できるシステムを構築しました。疲れを知らず、常に最善を尽くしている販売員を想像してみてください。

テクノロジースタック

音声処理: ウィスパーラージ V3 ターボ (明確な音声認識を保証します)
コアロジック: LLaMA 3.3 70B (インテリジェントな対話の実現)
音声出力: F5 TTS (自然でスムーズな音声応答を生成します)
データベース: 松ぼっくりベクトルデータベース (コンテキスト管理と情報検索用)
デモプラットフォーム: Google Colab

システムの仕組み

システムは 3 つの主要なステップに従います:

音声テキスト変換 (STT)
大規模言語モデル (LLM)
テキスト読み上げ (TTS)

フローチャート: ユーザー -> STT -> LLM -> ユーザー

詳細なプロセス:

顧客の話 -> ウィスパーがテキストを文字に起こします。
フェーズマネージャー (正規表現を使用) は会話のフェーズを追跡します。
Pinecone はデータベースから関連データを抽出します。
LLaMA 3.3 70B 完璧な返信を作成します。
F5 TTS はテキストを自然な音声に変換します。

主な機能

インテリジェントな音声選択: 6 つの異なる AI 音声 (男性 2 つ、女性 4 つ) を提供します
コンテキスト認識型応答: ベクトル類似性検索テクノロジーに基づく
構造化された対話の流れ: 専任のステージマネージャーによって制御

現在の制限事項

デモ環境: Google Colab に基づいて実行されます。
メモリ制限: コンテキストウィンドウの制限は 8,000 トークンです。
コンピューティングリソースの消費: リソースの使用量が多いです。
API の依存関係: コア機能は複数の API に依存します。
高いレイテンシー: 特定のレイテンシーの問題があります。

体験概要

技術的側面:

ベクトルデータベースの応用: 松ぼっくりベクトルデータベースを使用することで、コンテキストウィンドウが制限されている場合に、ベクトルデータベースがゲームのルールをどのように変更できるかを理解することができました。ミリ秒レベルの類似検索機能は会話履歴や学習データを効率的に処理でき、非常に強力です。
ステージ管理の重要性: 会話のステージを明確にすることで、売り込み方や質問内容など、そのステージに関連する例を簡単に組み込むことができます。
Web 統合: フロントエンドとバックエンドのデータ対話を効率的に行うために fastapi を使用することが重要です。 Webhook を使用すると、会話全体でデータを交換し、AI 通話を 1 回開始するだけで接続を維持できます。

システム設計:

チャンク化の重要性:完全な文を待つのではなく、音声を 5 秒の長さのセグメントに分割して処理すると、ユーザーエクスペリエンスが大幅に向上し、処理時間が短縮されます。これには、精度と速度の最適なバランスを見つける必要があります。
モジュラーアーキテクチャの利点: システムを独立したサービス (STT、LLM、TTS) に分解すると、開発とデバッグのプロセスが大幅に簡素化されます。問題が発生した場合、修正が必要な部分をすぐに見つけることができます。

実際の制限:

API コスト: 複数の API 呼び出し (Whisper、LLAMA) を管理することで、API の使用を最適化することの重要性を学びました。速度を維持しながら API 呼び出しの数を最小限に抑えることは大きな課題です。
レイテンシーの削減: データがインターネットから常に取得され、処理されている場合、レイテンシーを削減することは非常に困難です。今後は、インターネットからデータを転送またはダウンロードする回数を最小限に抑えるよう努めます。

予期せぬ課題:

プロンプトワードエンジニアリング: プロンプトワードエンジニアリングは非常に重要であり、モデルが人間のように一貫して表現できるかどうか、または同じ文を繰り返すかどうかを決定します。
コンテキストウィンドウの制限: 8,000 トークンの制限により、コンテキストをスマートに管理する必要があります。すべての情報を保存する代わりに、ベクターデータベースから関連する部分を取得することで、必要な情報をすべて含む LLM の構造を設計できるようになりました。

今後の予定