ホームページ バックエンド開発 Python チュートリアル AI セールス エージェントの構築: 音声から提案まで。

AI セールス エージェントの構築: 音声から提案まで。

Jan 18, 2025 pm 06:13 PM

Building an AI Sales Agent: From Voice to Pitch.

プロジェクト概要

EnCode 2025 チャレンジにおける私の目標は、高品質で自然かつスムーズな音声インタラクションが可能な AI セールス エージェントを作成し、本物の人間と話しているような体験のような超低遅延の実現に努めることです。最終的に、私は、潜在顧客への挨拶からニーズの理解、関連するコースの推奨まで、オンライン コーチング センターの完全な営業会話をすべてポジティブでフレンドリーで人間のような声で処理できるシステムを構築しました。疲れを知らず、常に最善を尽くしている販売員を想像してみてください。

テクノロジースタック

  • 音声処理: ウィスパーラージ V3 ターボ (明確な音声認識を保証します)
  • コアロジック: LLaMA 3.3 70B (インテリジェントな対話の実現)
  • 音声出力: F5 TTS (自然でスムーズな音声応答を生成します)
  • データベース: 松ぼっくりベクトル データベース (コンテキスト管理と情報検索用)
  • デモ プラットフォーム: Google Colab

システムの仕組み

システムは 3 つの主要なステップに従います:

  1. 音声テキスト変換 (STT)
  2. 大規模言語モデル (LLM)
  3. テキスト読み上げ (TTS)

フローチャート: ユーザー -> STT -> LLM -> ユーザー

詳細なプロセス:

  1. 顧客の話 -> ウィスパーがテキストを文字に起こします。
  2. フェーズ マネージャー (正規表現を使用) は会話のフェーズを追跡します。
  3. Pinecone はデータベースから関連データを抽出します。
  4. LLaMA 3.3 70B 完璧な返信を作成します。
  5. F5 TTS はテキストを自然な音声に変換します。

主な機能

  • インテリジェントな音声選択: 6 つの異なる AI 音声 (男性 2 つ、女性 4 つ) を提供します
  • コンテキスト認識型応答: ベクトル類似性検索テクノロジーに基づく
  • 構造化された対話の流れ: 専任のステージマネージャーによって制御

現在の制限事項

  • デモ環境: Google Colab に基づいて実行されます。
  • メモリ制限: コンテキスト ウィンドウの制限は 8,000 トークンです。
  • コンピューティング リソースの消費: リソースの使用量が多いです。
  • API の依存関係: コア機能は複数の API に依存します。
  • 高いレイテンシー: 特定のレイテンシーの問題があります。

体験概要

技術的側面:

  • ベクトル データベースの応用: 松ぼっくりベクトル データベースを使用することで、コンテキスト ウィンドウが制限されている場合に、ベクトル データベースがゲームのルールをどのように変更できるかを理解することができました。ミリ秒レベルの類似検索機能は会話履歴や学習データを効率的に処理でき、非常に強力です。
  • ステージ管理の重要性: 会話のステージを明確にすることで、売り込み方や質問内容など、そのステージに関連する例を簡単に組み込むことができます。
  • Web 統合: フロントエンドとバックエンドのデータ対話を効率的に行うために fastapi を使用することが重要です。 Webhook を使用すると、会話全体でデータを交換し、AI 通話を 1 回開始するだけで接続を維持できます。

システム設計:

  • チャンク化の重要性:完全な文を待つのではなく、音声を 5 秒の長さのセグメントに分割して処理すると、ユーザー エクスペリエンスが大幅に向上し、処理時間が短縮されます。これには、精度と速度の最適なバランスを見つける必要があります。
  • モジュラー アーキテクチャの利点: システムを独立したサービス (STT、LLM、TTS) に分解すると、開発とデバッグのプロセスが大幅に簡素化されます。問題が発生した場合、修正が必要な部分をすぐに見つけることができます。

実際の制限:

  • API コスト: 複数の API 呼び出し (Whisper、LLAMA) を管理することで、API の使用を最適化することの重要性を学びました。速度を維持しながら API 呼び出しの数を最小限に抑えることは大きな課題です。
  • レイテンシーの削減: データがインターネットから常に取得され、処理されている場合、レイテンシーを削減することは非常に困難です。今後は、インターネットからデータを転送またはダウンロードする回数を最小限に抑えるよう努めます。

予期せぬ課題:

  • プロンプトワードエンジニアリング: プロンプトワードエンジニアリングは非常に重要であり、モデルが人間のように一貫して表現できるかどうか、または同じ文を繰り返すかどうかを決定します。
  • コンテキスト ウィンドウの制限: 8,000 トークンの制限により、コンテキストをスマートに管理する必要があります。すべての情報を保存する代わりに、ベクター データベースから関連する部分を取得することで、必要な情報をすべて含む LLM の構造を設計できるようになりました。

今後の予定

  • マルチスレッドテクノロジーを使用して遅延を削減します。
  • 多言語サポートを追加しました。
  • 取引を成立させるために最初のリードを獲得した後に顧客に連絡する「リード ボット」など、ボットの種類をさらに追加します。

体験プロジェクト

https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5

GitHub ---

コメント欄に貴重なご提案をお待ちしております!

以上がAI セールス エージェントの構築: 音声から提案まで。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は? LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は? Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか? 中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか? Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は? あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は? Apr 01, 2025 pm 11:15 PM

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は? プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は? Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は?コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

uvicornは、serving_forever()なしでhttpリクエストをどのように継続的に聞いていますか? uvicornは、serving_forever()なしでhttpリクエストをどのように継続的に聞いていますか? Apr 01, 2025 pm 10:51 PM

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

Investing.comの反クローラーメカニズムをバイパスするニュースデータを取得する方法は? Investing.comの反クローラーメカニズムをバイパスするニュースデータを取得する方法は? Apr 02, 2025 am 07:03 AM

Investing.comの反クラウリング戦略を理解する多くの人々は、Investing.com(https://cn.investing.com/news/latest-news)からのニュースデータをクロールしようとします。

See all articles