真快!几分钟就把视频语音识别为文本了,不到10行代码
大家好,我是风筝
两年前,将音视频文件转换为文字内容的需求难以实现,但是如今只需几分钟便可轻松解决。
据说一些公司为了获取训练数据,已经对抖音、快手等短视频平台上的视频进行了全面爬取,然后将视频中的音频提取出来转换成文本形式,用作大数据模型的训练语料。
如果您需要将视频或音频文件转换为文字,可以尝试今天提供的这个开源解决方案。例如,可以搜索影视节目的对话出现的具体时间点。
话不多说,进入正题。
Whisper
这个方案就是 OpenAI 开源的 Whisper,当然是用 Python 写的了,只需要简单安装几个包,然后几行代码一写,稍等片刻(根据你的机器性能和音视频长度不一),最终的文本内容就出来了,就是这么简单。
GitHub 仓库地址:https://github.com/openai/whisper
Fast-Whisper
尽管已经相当简化,但对于程序员而言仍不够精简。毕竟,程序员们往往偏爱简洁高效。虽然安装和调用Whisper已经相对容易,但仍需要单独安装PyTorch、ffmpeg,甚至Rust。
因此,Fast-Whisper应运而生,它比Whisper更快速、更简洁。Fast-Whisper并非仅仅是对Whisper进行简单封装,而是通过采用CTranslate2重新构建了OpenAI的Whisper模型。CTranslate2是Transformer模型的一种高效推理引擎。
总结一下,也就是比 Whisper 更快,官方的说法是比 Whisper 快了 4-8 倍。不仅能支持 GPU ,还能支持 CPU,连我这台破 Mac 也能用。
GitHub 仓库地址:https://github.com/SYSTRAN/faster-whisper
使用起来就两步。
- 安装依赖包
pip install faster-whisper
- 写代码,
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
没错,就是这么简单。
能做什么呢
正好有个朋友想做短视频,发一些鸡汤文学的视频,鸡汤就来自于一些名家访谈的视频。但是,他又不想把完整的视频看一遍,就想用最快的方式把文本内容弄下来,然后读文字,因为读文字要比看一篇视频快的多,而且还可以搜索。
我就说,连完整的看一篇视频的虔诚之心都没有,能经营好账号吗。
于是我给他做了一个,就是用的 Fast-Whisper。
客户端
客户端用 Swift ,只支持 Mac 端。
- 选则一个视频;
- 然后点击「提取文本」,这时会调用 Python 接口,需要等待一段时间;
- 加载解析出的文本以及出现的开始、截止时间;
- 选了一个开始时间和一个结束事件;
- 点击「导出」按钮,视频片段就导出了;
,时长00:10
服务端
服务端当然就是 Python ,然后用 Flask 包装一下,对外放开接口。
from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
以上是真快!几分钟就把视频语音识别为文本了,不到10行代码的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

外国女人表情包有哪些?近期有个外国女人的表情包在网络上非常火,相信很多小伙伴在刷视频时都会遇见,下面小编就来给大家分享几个对应的表情包,感兴趣的快来看看吧。外国女人表情包大全

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

已老实求放过梗是什么意思?“已老实求放过”作为一个网络流行语,源自于一系列关于商品价格上调引发的幽默讨论,这一表达现多用于自嘲或调侃情境中,意指个体面对特定情形(如压力、调侃或玩笑)时,感觉自己无力反抗或辩驳,下面就跟着小编一起来看看这个梗的介绍吧。已老实求放过梗介绍来源:已老实求放过这个梗起源于“给你加个准时宝就老实了”,后来演变为“利群涨两块就老实了”和“冰红茶涨一块就老实了”。网友大呼“已老实求降价”,最后发展为“已老实求放过”且有表情包诞生。用处:用于在破防的时候或者无可奈何,甚至是自我

小弟膜拜膜拜膜拜你表情包有哪些?小弟膜拜膜拜膜拜你表情包源于网络博主何丢丢不走丢创作的“大哥与小弟系列”,在该系列中,小弟面对难题时大哥及时相助,随后小弟便会用这句台词表达极度崇拜和感激之情,形成了风趣又不失恭敬的网络梗,下面就跟着小编一起来欣赏一下表情包吧。小弟膜拜膜拜膜拜你表情包大全

红温是什么梗?红温梗源于电竞圈,特指前《英雄联盟》职业选手Uzi在比赛紧张或激动时脸部变红的现象,成为网络上描述人因激动,焦虑而满脸通红的趣味表达,下面就跟着小编一起来看看这个梗的具体介绍吧。红温梗含义介绍“红温”作为一个网络梗,源自于电子竞技领域的直播文化,特别是与《英雄联盟》(LeagueofLegends)相关的社区。这个梗初始是用来描述前职业选手Uzi(简自豪)在比赛中的一个特征现象。Uzi在比赛时,因为紧张、专注或情绪激动,脸部会变得异常红润,这一状态被观众戏谑地比喻为游戏内英雄“兰博

System76 最近以其 Cosmic 桌面环境引起了轰动,该环境计划于 8 月 8 日与 Pop!_OS 的下一个主要 alpha 版本一起发布。然而,System76 首席执行官 Carl Richell 最近在 X 上发表的一篇文章暗示 Cosmic DE开发商

因为他善梗是什么意思?相信有不少的小伙伴都有看到有很多短视频评论区里有这么一句评论吧,那这因为他善是什么意思呢,那今天小编就为大家带来了因为他善梗介绍,还不清楚的小伙伴快来一起看看吧。因为他善梗介绍来源:“因为他善”这个梗源自网络,特别是短视频平台如抖音上的一个热梗,与知名相声演员郭德纲的一个段子有关。在这个段子里,郭德纲以幽默的方式列举了几种不做某事的理由,每一条理由的结尾都是“因为他善”,形成了一个诙谐的逻辑闭环,实际上并没有直接的因果关系,而是一种无厘头的搞笑表达。热梗:例如,“会做的我不

寝室哪有空调是什么梗?“寝室哪有空调”这一网络梗,源自学生群体对宿舍缺乏空调这一生活现状的诙谐吐槽,通过夸张与自嘲的方式,表达了在炎炎夏日里对凉爽舒适环境的渴望与现实条件的反差,下面就跟着小编一起来看看这个梗的介绍吧。寝室哪有空调是什么梗来源:“寝室哪有空调”这个梗来源于对校园生活的一种调侃,特别是针对那些住宿条件较为基础、未配备空调的学校寝室环境。它反映出学生对于改善住宿条件,特别是在炎炎夏日对空调需求的渴望。这个梗在网络上流传,常用于学生之间的交流,用来幽默地表达对炎热天气下没有空调的无奈和
