語音模式已迅速成為對話式人工智慧的旗艦功能,讓使用者感到輕鬆並允許他們以最自然的方式(透過語音)進行互動。 OpenAI 不斷開拓創新,推出了延遲低於 500 毫秒的即時 AI 語音代理。這項成就背後的技術現已開源,提供了無與倫比的工具存取權限,使建立高品質的響應式語音代理成為可能。
語音模式有迅速成為對話式人工智慧的旗艦功能,讓使用者感到輕鬆並允許他們以最自然的方式(透過語音)進行互動。 OpenAI 不斷開拓創新,推出了延遲低於 500 毫秒的即時 AI 語音代理。這項成就背後的技術現已開源,提供了無與倫比的工具存取權限,使建立高品質的響應式語音代理成為可能。
OpenAI 並沒有採取任何行動。當他們為 ChatGPT 開發語音功能時,他們引進了頂尖的選角和導演人才,以確保聲音具有身臨其境的感覺,同時又讓他們看起來像是屬於自己的。隨後,400 名試鏡者被削減至今天的 5 名。這並不是說一切都是一帆風順的。不是當公司不得不擱置“天空”,因為它與斯嘉麗約翰遜驚人的相似。
但真正令人興奮的是最新的發展:能夠在本地利用這項技術。想像一下,在您自己的 GPU 上進行即時語音到語音處理,延遲低於 500 毫秒。這不再是一個遙遠的夢想:系統現在已完全開源。
為了實現如此小的延遲,AI 管道被分為不同的組件,每個組件都經過優化為了速度和效率:
管道從 Silero VAD v5 模組開始,負責偵測使用者何時結束演講。它是觸發下一階段處理的「看門人」。
這部分流程使用一些更複雜的模型(例如 Whisper 或 DeepSpeech)將使用者的語音轉錄為文字。例如,Whisper 是即時運行的,係數為 0.5;因此,它可以以兩倍於即時速度的速度處理語音,並在大約 100 毫秒內提供準確的轉錄。
隨著轉錄的進行,大型語言模型(LLM)開始同時預測可能的反應。在 200 毫秒內,系統可以產生相關的基於文字的回應。
使用快速語音合成器立即將產生的反應轉換為語音,這還需要 200 毫秒才能產生高品質的音訊。
這種令人印象深刻的速度的秘密在於並行處理。與順序處理組件或一次處理一項任務相比,系統同時進行轉錄、反應生成和語音合成。這種端到端的設計確保了流程的各個部分協同工作,大大減少了完成用戶交互所需的總體時間
例如,當系統檢測到語音結束時,系統會啟動轉錄過程。當轉錄完成時,語言模型已產生回應,隨後立即開始語音合成。這種任務並行處理確保從使用者語音到 AI 回應的整體互動在 500 毫秒內完成。
AI 語音代理 down人機互動延遲達到500ms,是無縫人機互動的重大發展。該技術的使用是透過即時轉錄、快速回應生成和語音合成,同時提供超響應的對話體驗。
這意味著,隨著整個管道開源,可以整合此技術技術融入您的專案。開發人員可以針對各種應用程式微調和自訂其語音代理,包括語音助理甚至即時遊戲化身。
這不僅僅是向前邁出的一步;這是建立對話式人工智慧未來的邀請。那麼,你會用它創造什麼?
以上是未來說:超低延遲的即時人工智慧語音代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!