能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么-人工智能-PHP中文网

LeMUR 解锁了什么可能性？

试用结果

首页

科技周边

人工智能

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

王林

Jun 03, 2023 pm 02:05 PM

模型

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。

将 LLM 应用于音频文件的一个关键挑战是，LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前，它需要被转换成文本。音频文件越长，绕过 LLM 的上下文窗口限制的工程挑战就越大。但工作场景中，我们往往需要 LLM 帮我们处理非常长的语音文件，比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……

最近，语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型。就像 ChatGPT 处理几十页的 PDF 文本一样，LeMUR 可以将长达 10 小时的录音进行转录、处理，然后帮用户总结语音中的核心内容，并回答用户输入的问题。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

试用地址：https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech（利用大型语言模型来理解识别的语音）的缩写，是将强大的 LLM 应用于转录的语音的新框架。只需一行代码（通过 AssemblyAI 的 Python SDK），LeMUR 就能快速处理长达 10 小时的音频内容的转录，有效地将其转化为约 15 万个 token。相比之下，现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

为了降低将 LLM 应用于转录音频文件的复杂性，LeMUR 的 pipeline 主要包含智能分割、一个快速矢量数据库和若干推理步骤（如思维链提示和自我评估），如下图所示：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

图 1：LeMUR 的架构使用户能够通过一个 API 调用将长的和 / 或多个音频转录文件发送到 LLM 中。

未来，LeMUR 有望在客服等领域得到广泛应用。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

LeMUR 解锁了一些惊人的新可能性，在几年前，我认为这些都是不可能的。它能够毫不费力地提取有价值的见解，如确定最佳行动，辨别销售、预约或呼叫目的等呼叫结果，感觉真的很神奇。—— 电话跟踪和分析服务技术公司 CallRail 首席产品官 Ryan Johnson

LeMUR 解锁了什么可能性？

将 LLM 应用于多个音频文本

LeMUR 能够让用户一次性获得 LLM 对多个音频文件的处理反馈，以及长达 10 小时的语音转录结果，转化后的文本 token 长度可达 150K 。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

可靠、安全的输出

由于 LeMUR 包含安全措施和内容过滤器，它将为用户提供来自 LLM 的回应，这些回应不太可能产生有害或有偏见的语言。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

可补充上下文

在推理时，它允许加入额外的上下文信息，LLM 可以利用这些额外信息在生成输出时提供个性化和更准确的结果。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

模块化、快速集成

LeMUR 始终以可处理的 JSON 形式返回结构化数据。用户可以进一步定制 LeMUR 的输出格式，以确保 LLM 给出的响应是他们下一块业务逻辑所期望的格式（例如将回答转化为布尔值）。在这一流程中，用户不再需要编写特定的代码来处理 LLM 的输出结果。

试用结果

根据 AssemblyAI 提供的测试链接，机器之心对 LeMUR 进行了测试。

LeMUR 的界面支持两种文件输入方式：上传音视频文件或粘贴网页链接均可。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

我们用 Hinton 近期的一份访谈资料作为输入，测试 LeMUR 的性能。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

上传之后，系统提示我们要等一段时间，因为它要先把语音转成文字。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

转录之后的界面如下：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

在页面右侧，我们可以要求 LeMUR 总结采访内容或回答问题。LeMUR 基本可以轻松地完成任务：

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

如果要处理的语音是一段演讲或客服回复，你还能向 LeMUR 征求改进建议。

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

不过，LeMUR 似乎目前还不支持中文。感兴趣的读者可以去尝试一下。

以上是能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7514

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，DeepSeek-V2[1]，全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由236B个参数组成，其中21B个参数用于激活每个标记。与DeepSeek67B相比，DeepSeek-V2性能更强，同时节省了42.5%的训练成本，减少了93.3%的KV缓存，最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究！菲尔兹奖得主、华裔数学家领衔11篇顶刊论文｜陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI，的确正在改变数学。最近，一直十分关注这个议题的陶哲轩，转发了最近一期的《美国数学学会通报》（BulletinoftheAmericanMathematicalSociety）。围绕「机器会改变数学吗？」这个话题，众多数学家发表了自己的观点，全程火花四射，内容硬核，精彩纷呈。作者阵容强大，包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化，要知道，其中很多文章是在一年前提交的，而在这一

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

谷歌狂喜：JAX性能超越Pytorch、TensorFlow！或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow，7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中，Pytorch依然比Tensorflow更受欢迎。但未来，也许有更多的大模型会基于JAX平台进行训练和运行。模型最近，Keras团队为三个后端（TensorFlow、JAX、PyTorch）与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先，他们为生成式和非生成式人工智能任务选择了一组主流

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

时间序列预测+NLP大模型新作：为时序预测自动生成隐式Prompt Mar 18, 2024 am 09:20 AM

今天我想分享一个最新的研究工作，这项研究来自康涅狄格大学，提出了一种将时间序列数据与自然语言处理（NLP）大模型在隐空间上对齐的方法，以提高时间序列预测的效果。这一方法的关键在于利用隐空间提示（prompt）来增强时间序列预测的准确性。论文标题：S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址：https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型

FisheyeDetNet：首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大，标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述，我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示，并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型，并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！ May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉，已经可以在厂子里打工了。正常速度下，它分拣电池（特斯拉的4680电池）是这样的：官方还放出了20倍速下的样子——在小小的“工位”上，拣啊拣啊拣：这次放出的视频亮点之一在于Optimus在厂子里完成这项工作，是完全自主的，全程没有人为的干预。并且在Optimus的视角之下，它还可以把放歪了的电池重新捡起来放置，主打一个自动纠错：对于Optimus的手，英伟达科学家JimFan给出了高度的评价：Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

See all articles

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

LeMUR 解锁了什么可能性？

试用结果

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题