너무 빨라요! 10줄 미만의 코드로 단 몇 분 만에 비디오 음성을 텍스트로 인식합니다.-일체 포함-php.cn

Whisper

Fast-Whisper

Client

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)

로그인 후 복사

" >

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)

로그인 후 복사

집

기술 주변기기

일체 포함

너무 빨라요! 10줄 미만의 코드로 단 몇 분 만에 비디오 음성을 텍스트로 인식합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 27, 2024 pm 01:55 PM

틱톡 음성 인식 pytorch rust

너무 빨라요! 10줄 미만의 코드로 단 몇 분 만에 비디오 음성을 텍스트로 인식합니다.

안녕하세요 여러분, 저는 Kite입니다

2년 전에는 오디오 및 비디오 파일을 텍스트 콘텐츠로 변환하는 작업이 어려웠지만 이제는 단 몇 분만에 쉽게 해결할 수 있습니다.

훈련 데이터를 얻기 위해 일부 회사에서는 Douyin 및 Kuaishou와 같은 짧은 비디오 플랫폼에서 비디오를 완전히 크롤링한 다음 비디오에서 오디오를 추출하고 텍스트 형식으로 변환하여 교육 코퍼스로 사용한다고 합니다. 빅 데이터 모델.

비디오 또는 오디오 파일을 텍스트로 변환해야 하는 경우 현재 제공되는 이 오픈 소스 솔루션을 사용해 볼 수 있습니다. 예를 들어, 영화나 TV 프로그램의 대화가 나오는 특정 시점을 검색할 수 있습니다.

더 이상 고민하지 않고 본론으로 들어가겠습니다.

Whisper

이 솔루션은 OpenAI의 오픈 소스 Whisper입니다. 물론 Python으로 작성되었습니다. 간단히 몇 개의 패키지를 설치한 다음 몇 줄의 코드를 작성하고 잠시 기다리면 됩니다(컴퓨터 성능에 따라 다름). 그리고 오디오와 비디오 길이(다름)를 결정하면 최종 텍스트 콘텐츠가 나오는데, 그렇게 간단합니다.

GitHub 창고 주소: https://github.com/openai/whisper

Fast-Whisper

상당히 단순화되었지만 여전히 프로그래머에게 충분히 효율적이지 않습니다. 결국 프로그래머는 단순성과 효율성을 선호하는 경향이 있습니다. Whisper를 설치하고 호출하는 것은 상대적으로 쉽지만 PyTorch, ffmpeg, Rust까지 별도로 설치해야 합니다.

그래서 Whisper보다 빠르고 간편한 Fast-Whisper가 탄생했습니다. Fast-Whisper는 Whisper를 단순히 캡슐화한 것이 아니라 CTranslate2를 사용하여 OpenAI의 Whisper 모델을 재구성한 것입니다. CTranslate2는 Transformer 모델을 위한 효율적인 추론 엔진입니다.

요약하자면, Whisper보다 4~8배 빠르다고 공식 발표되었습니다. GPU뿐 아니라 CPU도 지원할 수 있어 망가진 Mac도 사용할 수 있습니다.

GitHub 창고 주소: https://github.com/SYSTRAN/faster-whisper

사용하려면 두 단계만 거치면 됩니다.

종속성 패키지 설치

pip install faster-whisper

로그인 후 복사

코드 작성,

from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

로그인 후 복사

네, 아주 간단합니다.

무엇을 할 수 있나요

우연히 짧은 영상을 만들고 닭국 문학 영상을 올리고 싶어하는 친구가 있어요. 닭국은 유명한 사람들의 인터뷰에서 나온 거예요. 그러나 그는 전체 비디오를 다시 보고 싶지 않았고 텍스트 내용을 얻은 다음 텍스트를 읽는 가장 빠른 방법을 사용하고 싶었습니다. 왜냐하면 텍스트를 읽는 것이 비디오를 보는 것보다 훨씬 빠르기 때문입니다. 검색했습니다.

한번 말씀드리자면, 영상을 다 볼 수 있는 경건함도 없다면 어떻게 계정을 잘 관리할 수 있겠습니까?

그래서 저는 그를 위해 Fast-Whisper를 사용하여 하나를 만들었습니다.

Client

클라이언트는 Swift를 사용하며 Mac만 지원합니다.

비디오를 선택하고
"텍스트 추출"을 클릭하면 Python 인터페이스가 호출되며 잠시 기다려야 합니다.
표시되는 시작 및 종료 시간과 구문을 로드합니다. 시작 시간과 종료 이벤트를 선택하세요.
"내보내기" 버튼을 클릭하면 동영상 클립이

, 길이 00:10

서버 측으로 내보내집니다. Python을 Flask와 함께 패키지화하여 외부 세계에 대한 인터페이스를 엽니다.

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)

로그인 후 복사

위 내용은 너무 빨라요! 10줄 미만의 코드로 단 몇 분 만에 비디오 음성을 텍스트로 인식합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7486

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

외국 여성의 표현 팩 전체 모음 Jul 15, 2024 pm 05:48 PM

외국인 여성의 이모티콘은 무엇입니까? 최근에는 외국 여성의 이모티콘 패키지가 인터넷에서 큰 인기를 끌었습니다. 많은 친구들이 영상을 볼 때 접하게 될 것입니다. 아래에서 해당 이모티콘 패키지를 공유해 드리겠습니다. 외국 여성의 표현 팩 전체 모음

Bytedance Cutting, SVIP 슈퍼 멤버십 출시: 연간 연속 구독료 499위안, 다양한 AI 기능 제공 Jun 28, 2024 am 03:51 AM

이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

저는 솔직하게 밈 소개를 자제해달라고 요청했습니다. Jul 17, 2024 am 05:44 AM

솔직하게 말하고 놓아준다는 것은 무엇을 의미합니까? "솔직히 놔달라고 애원했어요"라는 인터넷 유행어는 물가 상승에 대한 일련의 유머러스한 논의에서 유래됐다. 이 표현은 현재는 개인이 특정한 상황에 직면한다는 것을 의미하는 자기비하나 조롱 상황에서 주로 사용된다. (압박, 놀림, 농담 등) 참을 수 없거나 논쟁을 벌일 수 없을 것 같은 느낌이 든다면 편집자를 따라가서 이 밈의 소개를 살펴보겠습니다. "벌써 놔달라고 애원한다"라는 밈의 소개 출처: "벌써 놔달라고 애원한다"는 "시간의 보물을 더하면 솔직해진다"에서 유래하여 나중에 "리쿤이 올라간다면"으로 발전했다. 2위안, 솔직하게 말씀해주세요.", "아이스티 홍차는 1위안 올라갑니다. 솔직하게 말씀해주세요." 네티즌들은 “솔직하게 가격 깎아달라고 했어요”라고 외쳤고, 이는 결국 “솔직하게 놔달라고 했어요”로 발전해 이모티콘 패키지가 탄생했다. 사용법 : 방어를 무너뜨릴 때, 선택의 여지가 없을 때, 심지어 자신을 위해서도 사용됩니다.

나는 당신을 숭배합니다, 나는 당신을 숭배합니다, 이모티콘 모음 Jul 15, 2024 am 11:25 AM

"나는 당신을 숭배합니다, 나는 당신을 숭배합니다"의 이모티콘에는 어떤 것이 있습니까? "나는 당신을 숭배합니다, 나는 당신을 숭배합니다"라는 표현 팩은 온라인 블로거 He Diudiu Buchuudi가 만든 "큰 형제와 작은 형제 시리즈"에서 유래되었습니다. 이 시리즈에서는 형이 어려움에 처했을 때 동생을 도와줍니다. 그러면 남동생은 이 대사로 표현합니다. 극도의 감탄과 감사가 재미있고 존경스러운 인터넷 밈을 형성했습니다. 편집자를 따라 이모티콘을 즐겨보세요. 나는 당신을 숭배합니다, 나는 당신을 숭배합니다, 이모티콘의 전체 목록

레드 웜 테리어의 의미 소개 Jul 12, 2024 pm 03:39 PM

적색온도란 무엇인가요? 붉고 따뜻한 밈은 e스포츠계에서 유래했는데, 특히 전 '리그 오브 레전드' 프로선수 우지가 경기 중 긴장하거나 흥분하면 얼굴이 붉어지는 현상을 언급하며 인터넷에서 흥미로운 표현이 됐다. 설렘과 불안으로 얼굴이 붉어지는 사람들의 모습을 표현하기 위해 다음은 편집자의 설명을 따라 이 밈의 자세한 소개를 살펴보겠습니다. e스포츠 분야의 생방송 문화, 특히 '리그 오브 레전드(League of Legends)' 관련 커뮤니티에서 유래한 인터넷 밈으로서의 홍원 밈 '레드 웬'의 의미를 소개한다. 이 밈은 원래 게임 내에서 전직 프로선수 우지(자랑스럽게 지안)의 특징적인 현상을 설명하기 위해 사용되었습니다. 우지는 플레이할 때 초조함, 집중, 감정으로 인해 얼굴이 극도로 발그레해진다. 이 상태는 관객들에 의해 농담으로 게임 속 영웅 '람보'에 비유된다.

System76 팁 Fedora 42를 포함한 2025년 릴리스용 Fedora Cosmic 스핀 Aug 01, 2024 pm 09:54 PM

System76은 최근 8월 8일 Pop!_OS의 차기 주요 알파 빌드와 함께 출시될 예정인 Cosmic 데스크탑 환경으로 큰 파장을 일으켰습니다. 그러나 System76 CEO인 Carl Richell이 X에 대한 최근 게시물에서 Cosmic DE가 다음과 같은 정보를 제공했습니다. 개발자

왜냐면 그 사람은 소개를 잘하니까 Jul 16, 2024 pm 08:59 PM

스토킹을 잘한다고 무슨 뜻인가요? 많은 친구들이 짧은 영상 댓글 영역에서 이런 댓글을 본 적이 있을 거라 생각하는데, 오늘은 '그 사람이 좋으니까'라는 밈을 소개하려고 합니다. 아직 모르시는 분들은 오셔서 구경해보세요. '그 사람이 좋으니까' 밈의 유래: '그 사람이 좋으니까'라는 밈은 인터넷에서 유래되었으며, 특히 Douyin과 같은 짧은 동영상 플랫폼에서 인기 있는 밈으로, 잘 알려진 누화에 의한 농담과 관련이 있습니다. 배우 궈더강. 이 문단에서 곽덕강은 어떤 일을 하지 말아야 할 몇 가지 이유를 유머러스하게 나열했는데, 각각의 이유는 '그 사람이 좋으니까'로 끝나서, 사실 직접적인 인과관계는 없지만 말도 안되는 유머러스한 논리를 형성하고 있다. 그리고 웃긴 표정. 핫한 밈: 예를 들어 “난 할 수 없어”

기숙사에는 왜 에어컨이 없나요? Jul 11, 2024 pm 07:36 PM

기숙사에는 왜 에어컨이 없나요? '기숙사 에어컨은 어디에 있지? 더운 여름과 현실적인 조건의 대비, 편집자를 따라 이 밈의 소개를 살펴보겠습니다. 기숙사 에어컨은 어디에 있나요? 밈의 유래: "기숙사에 에어컨은 어디에 있나요?" 이 밈은 특히 비교적 기본적인 숙소 조건과 에어컨이 없는 학교 기숙사에 대한 조롱에서 비롯되었습니다. . 이는 개선된 숙박 조건, 특히 더운 여름 동안 에어컨의 필요성에 대한 학생들의 욕구를 반영합니다. 이 밈은 인터넷에 유포되며, 더운 날씨에 에어컨이 없어서 답답함과 답답함을 유머러스하게 표현하기 위해 학생들 간의 의사소통에 자주 사용됩니다.

See all articles

너무 빨라요! 10줄 미만의 코드로 단 몇 분 만에 비디오 음성을 텍스트로 인식합니다.

Whisper

Fast-Whisper

무엇을 할 수 있나요

Client

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제