미래가 말하다: 대기 시간이 매우 짧은 실시간 AI 음성 에이전트-일반적인 문제-php.cn

미래가 말하다: 대기 시간이 매우 짧은 실시간 AI 음성 에이전트

James Robert Taylor

풀어 주다： 2024-09-24 16:41:31

원래의

704명이 탐색했습니다.

음성 모드는 사용자에게 편안함을 주고 음성을 통해 가장 자연스러운 방식으로 상호 작용할 수 있도록 하는 대화형 AI의 주요 기능으로 빠르게 자리 잡았습니다. OpenAI는 500ms 미만의 대기 시간으로 작동하는 실시간 AI 음성 에이전트를 도입하여 지속적으로 새로운 길을 개척해 왔습니다. 이 성과를 뒷받침하는 기술은 이제 오픈 소스로, 최고 품질의 반응형 음성 에이전트를 구축할 수 있는 도구에 대한 탁월한 액세스를 제공합니다.

thumbnail (1).jpg

음성 모드에는 대화형 AI의 주요 기능으로 빠르게 자리잡아 사용자를 편안하게 하고 음성을 통해 가장 자연스러운 방식으로 상호작용할 수 있게 해줍니다. OpenAI는 500ms 미만의 대기 시간으로 작동하는 실시간 AI 음성 에이전트를 도입하여 지속적으로 새로운 길을 개척해 왔습니다. 이 성과를 뒷받침하는 기술은 이제 오픈 소스로, 최고 품질의 반응형 음성 에이전트를 구축할 수 있는 도구에 대한 탁월한 액세스를 제공합니다.

OpenAI는 아무런 성과도 거두지 못했습니다. ChatGPT의 음성 기능을 개발할 때 캐스팅과 연출을 위한 최고의 인재를 영입하여 목소리가 몰입감 있게 느껴지면서도 마치 소속된 것처럼 보이도록 만들었습니다. 400개의 오디션 풀은 현재 이용 가능한 5개 오디션으로 축소되었습니다. 완전히 순조로운 항해는 아니었습니다. 회사가 스칼렛 요한슨과 눈에 띄는 유사성으로 인해 "Sky"를 보류해야 했던 때가 아니었습니다.

그러나 진정한 흥분은 최신 개발, 즉 이 기술을 현지에서 활용할 수 있는 능력에 있습니다. 자신의 GPU에서 500ms 미만의 대기 시간으로 실시간 음성 대 음성 처리가 가능하다고 상상해 보십시오. 더 이상 먼 꿈이 아닙니다. 이제 시스템은 완전히 오픈 소스입니다.

어떻게 작동하나요?

최소 지연 시간을 달성하기 위해 AI 파이프라인은 개별 구성 요소로 나누어져 있으며 각각은 최적화되어 있습니다. 속도와 효율성을 위해:

1. 음성 활동 감지(VAD)

파이프라인은 사용자가 말하기를 마친 시점을 감지하는 Silero VAD v5 모듈로 시작됩니다. 처리의 다음 단계를 시작하는 "문지기"입니다.

2. 실시간 전사(음성-텍스트)

흐름의 이 부분에서는 Whisper 또는 DeepSpeech와 같은 보다 정교한 모델을 사용하여 사용자의 음성을 텍스트로 전사합니다. 예를 들어 Whisper는 0.5배로 실시간으로 작동합니다. 따라서 실시간보다 두 배 빠른 속도로 음성을 처리하고 약 100밀리초 내에 정확한 텍스트 변환을 제공할 수 있습니다.

3. 응답 생성

텍스트 변환이 진행됨에 따라 대규모 언어 모델(LLM)이 가능한 응답을 동시에 예측하기 시작합니다. 200밀리초 이내에 시스템은 관련 텍스트 기반 응답을 생성할 수 있습니다.

4. 음성 합성(텍스트 음성 변환)

생성된 응답은 빠른 음성 합성기를 사용하여 즉시 음성으로 변환되며 고품질 오디오를 생성하는 데 200ms가 더 걸립니다.

병렬을 통한 효율성 처리

이 놀라운 속도의 비결은 병렬 처리에 있습니다. 구성요소를 순차적으로 처리하거나 한 번에 하나의 작업을 처리하는 것과 달리 시스템은 텍스트 변환, 응답 생성, 음성 합성을 동시에 수행합니다. 이러한 엔드투엔드 설계는 프로세스의 각 부분이 함께 작동하도록 보장하여 사용자 상호 작용을 완료하는 데 걸리는 전체 시간을 대폭 줄입니다.

예를 들어, 시스템이 음성 끝을 감지하면 시스템은 전사 과정. 전사가 완료될 때쯤에는 언어 모델에 의해 응답이 생성되고 음성 합성이 즉시 시작됩니다. 이러한 작업 병렬 처리는 사용자 음성부터 AI 응답까지 전체 상호 작용이 500밀리초 이내에 완료되도록 보장합니다.