社区

学习

工具库

AI工具

休闲

简体中文

目录

它是如何工作的？

1。语音活动检测 (VAD)

2.实时转录（语音到文本）

3.响应生成

4.语音合成（文本到语音）

通过并行提高效率处理

结论：解锁语音 AI 的未来

首页

常见问题

未来说话：超低延迟的实时人工智能语音代理

未来说话：超低延迟的实时人工智能语音代理

James Robert Taylor

Sep 24, 2024 pm 04:34 PM

语音模式已迅速成为对话式人工智能的旗舰功能，让用户感到轻松并允许他们以最自然的方式（通过语音）进行交互。 OpenAI 不断开拓创新，推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源，提供了无与伦比的工具访问权限，使构建高质量的响应式语音代理成为可能。

thumbnail (1).jpg

语音模式有迅速成为对话式人工智能的旗舰功能，让用户感到轻松并允许他们以最自然的方式（通过语音）进行交互。 OpenAI 不断开拓创新，推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源，提供了无与伦比的工具访问权限，使构建高质量的响应式语音代理成为可能。

OpenAI 并没有采取任何行动。当他们为 ChatGPT 开发语音功能时，他们引进了顶尖的选角和导演人才，以确保声音具有身临其境的感觉，同时又让他们看起来像是属于自己的。随后，400 名试镜者被削减至今天的 5 名。这并不是说一切都是一帆风顺的。不是当公司不得不搁置“天空”，因为它与斯嘉丽约翰逊惊人的相似。

但真正令人兴奋的是最新的发展：能够在本地利用这项技术。想象一下，在您自己的 GPU 上进行实时语音到语音处理，延迟低于 500 毫秒。这不再是一个遥远的梦想：系统现已完全开源。

它是如何工作的？

为了实现如此小的延迟，AI 管道被分为不同的组件，每个组件都经过优化为了速度和效率：

1。语音活动检测 (VAD)

管道从 Silero VAD v5 模块开始，负责检测用户何时结束讲话。它是触发下一阶段处理的“看门人”。

2.实时转录（语音到文本）

这部分流程使用一些更复杂的模型（例如 Whisper 或 DeepSpeech）将用户的语音转录为文本。例如，Whisper 是实时运行的，系数为 0.5；因此，它可以以两倍于实时速度的速度处理语音，并在大约 100 毫秒内提供准确的转录。

3.响应生成

随着转录的进行，大型语言模型（LLM）开始同时预测可能的响应。在 200 毫秒内，系统可以生成相关的基于文本的回复。

4.语音合成（文本到语音）

使用快速语音合成器立即将生成的响应转换为语音，这还需要 200 毫秒才能产生高质量的音频。

通过并行提高效率处理

这种令人印象深刻的速度的秘密在于并行处理。与顺序处理组件或一次处理一项任务相比，系统同时进行转录、响应生成和语音合成。这种端到端的设计确保了流程的各个部分协同工作，极大地减少了完成用户交互所需的总体时间

例如，当系统检测到语音结束时，系统会启动转录过程。当转录完成时，语言模型已生成响应，随后立即开始语音合成。这种任务并行处理确保从用户语音到 AI 响应的整体交互在 500 毫秒内完成。

结论：解锁语音 AI 的未来

AI 语音代理 down人机交互延迟达到500ms，是无缝人机交互的重大发展。该技术的使用是通过实时转录、快速响应生成和语音合成，同时提供超响应的对话体验。

这意味着，随着整个管道开源，可以集成此技术技术融入您的项目。开发人员可以针对各种应用程序微调和自定义其语音代理，包括语音助手甚至实时游戏化身。

这不仅仅是向前迈出的一步；这是构建对话式人工智能未来的邀请。那么，你会用它创造什么？

以上是未来说话：超低延迟的实时人工智能语音代理的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热门文章

如何修复KB5055523无法在Windows 11中安装？

3 周前 By DDD

如何修复KB5055518无法在Windows 10中安装？

3 周前 By DDD

R.E.P.O.的每个敌人和怪物的力量水平

3 周前 By 尊渡假赌尊渡假赌尊渡假赌

<🎜>：死铁路 - 如何驯服狼

3 周前 By DDD

蓝王子：如何到达地下室

3 周前 By DDD

显示更多

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1653

14

CakePHP 教程

1413

52

Laravel 教程

1306

25

PHP教程

1251

29

C# 教程

1224

24

显示更多