Inhaltsverzeichnis
Whisper
Fast-Whisper
Was kann ich tun
Client
from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
Nach dem Login kopieren
" >
from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
Nach dem Login kopieren
Heim Technologie-Peripheriegeräte KI so schnell! Erkennen Sie Videosprache in nur wenigen Minuten mit weniger als 10 Codezeilen in Text

so schnell! Erkennen Sie Videosprache in nur wenigen Minuten mit weniger als 10 Codezeilen in Text

Feb 27, 2024 pm 01:55 PM
抖音 语音识别 pytorch rust

so schnell! Erkennen Sie Videosprache in nur wenigen Minuten mit weniger als 10 Codezeilen in Text

Hallo zusammen, ich bin Kite

Vor zwei Jahren war es schwierig, Audio- und Videodateien in Textinhalte umzuwandeln, aber jetzt lässt es sich ganz einfach in nur wenigen Minuten lösen.

Es heißt, dass einige Unternehmen, um Trainingsdaten zu erhalten, Videos auf Kurzvideoplattformen wie Douyin und Kuaishou vollständig gecrawlt haben, dann den Ton aus den Videos extrahiert und sie in Textform umgewandelt haben, um sie als Trainingskorpus zu verwenden Big-Data-Modelle.

Wenn Sie Video- oder Audiodateien in Text konvertieren müssen, können Sie diese heute verfügbare Open-Source-Lösung ausprobieren. Sie können beispielsweise nach bestimmten Zeitpunkten suchen, zu denen Dialoge in Film- und Fernsehsendungen erscheinen.

Kommen wir ohne weitere Umschweife zum Punkt.

Whisper

Diese Lösung ist OpenAIs Open-Source-Whisper. Natürlich ist sie in Python geschrieben. Sie müssen nur ein paar Pakete installieren, dann ein paar Zeilen Code schreiben und einen Moment warten (abhängig von der Leistung Ihres Computers). und Audio- und Videolänge) (verschieden), der endgültige Textinhalt kommt heraus, so einfach ist das.

GitHub-Lageradresse: https://github.com/openai/whisper

Fast-Whisper

Obwohl es ziemlich vereinfacht ist, ist es für Programmierer immer noch nicht rationalisiert genug. Schließlich bevorzugen Programmierer tendenziell Einfachheit und Effizienz. Obwohl es relativ einfach ist, Whisper zu installieren und aufzurufen, müssen Sie PyTorch, ffmpeg und sogar Rust dennoch separat installieren.

So entstand Fast-Whisper, das schneller und einfacher als Whisper ist. Fast-Whisper ist nicht nur eine einfache Kapselung von Whisper, sondern eine Rekonstruktion des Whisper-Modells von OpenAI unter Verwendung von CTranslate2. CTranslate2 ist eine effiziente Inferenz-Engine für das Transformer-Modell.

Zusammenfassend ist es schneller als Whisper. Die offizielle Aussage lautet, dass es 4-8 mal schneller als Whisper ist. Es unterstützt nicht nur die GPU, sondern auch die CPU, und sogar mein kaputter Mac kann verwendet werden.

GitHub-Lageradresse: https://github.com/SYSTRAN/faster-whisper

Die Verwendung dauert nur zwei Schritte.

  1. Abhängigkeitspakete installieren
pip install faster-whisper
Nach dem Login kopieren
  1. Code schreiben,
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
Nach dem Login kopieren

Ja, so einfach ist das.

Was kann ich tun

Zufällig gibt es einen Freund, der kurze Videos machen und einige Videos zur Hühnersuppe-Literatur veröffentlichen möchte, die aus Interviews mit einigen berühmten Leuten stammen. Er wollte jedoch nicht das gesamte Video noch einmal ansehen, sondern nur den schnellsten Weg nutzen, um den Textinhalt abzurufen und dann den Text zu lesen, da das Lesen von Text viel schneller ist als das Ansehen eines Videos, und das kann auch der Fall sein gesucht.

Lassen Sie mich einfach sagen: Wenn Sie nicht einmal die Frömmigkeit haben, sich ein komplettes Video anzusehen, wie können Sie dann ein Konto gut verwalten?

Also habe ich mit Fast-Whisper eins für ihn gemacht.

Client

Der Client verwendet Swift und unterstützt nur Mac.

  1. Wählen Sie ein Video aus;
  2. Klicken Sie dann auf „Text extrahieren“, dann wird die Python-Schnittstelle aufgerufen und Sie müssen eine Weile warten.
  3. Laden Sie den analysierten Text und die angezeigten Start- und Endzeiten Wählen Sie eine Startzeit und ein Endereignis.
  4. Klicken Sie auf die Schaltfläche „Exportieren“, und der Videoclip wird exportiert.
, Dauer 00:10

Serverseitig Python und dann mit Flask verpackt, öffnen die Schnittstelle zur Außenwelt.

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonso schnell! Erkennen Sie Videosprache in nur wenigen Minuten mit weniger als 10 Codezeilen in Text. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Eine komplette Sammlung von Ausdruckspaketen ausländischer Frauen Eine komplette Sammlung von Ausdruckspaketen ausländischer Frauen Jul 15, 2024 pm 05:48 PM

Was sind die Emoticons ausländischer Frauen? Ich glaube, dass das Emoticon-Paket einer ausländischen Frau in letzter Zeit im Internet sehr beliebt geworden ist. Nachfolgend wird der Herausgeber einige entsprechende Emoticon-Pakete mit Ihnen teilen. Eine komplette Sammlung von Ausdruckspaketen ausländischer Frauen

Bytedance Cutting führt SVIP-Supermitgliedschaft ein: 499 Yuan für ein fortlaufendes Jahresabonnement, das eine Vielzahl von KI-Funktionen bietet Bytedance Cutting führt SVIP-Supermitgliedschaft ein: 499 Yuan für ein fortlaufendes Jahresabonnement, das eine Vielzahl von KI-Funktionen bietet Jun 28, 2024 am 03:51 AM

Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Ich verehre dich, ich verehre dich, eine vollständige Liste der Emoticons Ich verehre dich, ich verehre dich, eine vollständige Liste der Emoticons Jul 15, 2024 am 11:25 AM

Was sind einige der Emoticons von „Ich bete dich an, ich bete dich an“? Das Ausdruckspaket „Ich bete dich an, ich bete dich an“ stammt aus der „Big Brother and Little Brother Series“ des Online-Bloggers He Diudiu Buchuudi. In dieser Serie hilft der ältere Bruder dem jüngeren Bruder rechtzeitig, wenn er auf Schwierigkeiten stößt. und dann wird der jüngere Bruder diese Zeile verwenden, um die extreme Bewunderung und Dankbarkeit auszudrücken, die ein lustiges und respektvolles Internet-Meme geschaffen hat. Folgen wir dem Herausgeber, um die Emoticons zu genießen. Ich verehre dich, ich verehre dich, eine vollständige Liste der Emoticons

Ich war ehrlich und habe darum gebeten, auf die Meme-Einleitung zu verzichten. Ich war ehrlich und habe darum gebeten, auf die Meme-Einleitung zu verzichten. Jul 17, 2024 am 05:44 AM

Was bedeutet es, ehrlich zu sein und loszulassen? Das Internet-Schlagwort „Ich war ehrlich und bettelte darum, losgelassen zu werden“ entstand aus einer Reihe humorvoller Diskussionen über steigende Rohstoffpreise. Dieser Ausdruck wird heute meist in Situationen der Selbstironie oder der Lächerlichkeit verwendet, was bedeutet, dass Einzelpersonen mit bestimmten Situationen konfrontiert sind (z. B. Druck, wenn Sie necken oder scherzen) Sie haben das Gefühl, dass Sie nicht in der Lage sind, Widerstand zu leisten oder zu argumentieren. Folgen wir dem Herausgeber, um die Einleitung dieses Memes zu sehen. Quelle der Einführung zum Meme von „Already Begging to Let It Go“: „Already Begging to Let It Go“ entstand aus „If you add a punctual Treasure, you will be Honest“ und entwickelte sich später zu „If Liqun goes up by“. zwei Yuan, seien Sie ehrlich“ und „Eisschwarzer Tee wird um einen Yuan teurer.“ Die Internetnutzer riefen: „Ich war ehrlich und habe um eine Preissenkung gebeten“, was sich schließlich zu „Ich war ehrlich und habe darum gebeten, entlassen zu werden“ entwickelte, und ein Emoticon-Paket war geboren. Verwendung: Wird verwendet, wenn man die Verteidigung durchbricht, oder wenn es keinen anderen Weg gibt, oder auch für sich selbst

Einführung in die Bedeutung des Red Warm Terrier Einführung in die Bedeutung des Red Warm Terrier Jul 12, 2024 pm 03:39 PM

Was ist rote Temperatur? Das rot-warme Meme stammt aus dem E-Sport-Kreis und bezieht sich speziell auf das Phänomen, dass der ehemalige „League of Legends“-Profispieler Uzi rot wird, wenn er während des Spiels nervös oder aufgeregt ist. Es ist zu einem interessanten Ausdruck im Internet geworden um zu beschreiben, wie Menschen vor Aufregung und Angst rot werden. Folgen wir dem Herausgeber, um die detaillierte Einführung dieses Memes zu sehen. Einführung in die Bedeutung des Hongwen-Memes „Red Wen“ als Internet-Meme hat seinen Ursprung in der Live-Übertragungskultur im Bereich des E-Sports, insbesondere in der Community im Zusammenhang mit „League of Legends“ (League of Legends). Dieses Meme wurde ursprünglich verwendet, um ein charakteristisches Phänomen des ehemaligen Profispielers Uzi (Jian stolz) im Spiel zu beschreiben. Wenn Uzi spielt, wird sein Gesicht aufgrund von Nervosität, Konzentration oder Emotionen extrem rosig. Dieser Zustand wird vom Publikum scherzhaft mit dem Spielhelden „Rambo“ verglichen.

System76 gibt Tipps für den Spin von Fedora Cosmic für die Veröffentlichung 2025 mit Fedora 42 System76 gibt Tipps für den Spin von Fedora Cosmic für die Veröffentlichung 2025 mit Fedora 42 Aug 01, 2024 pm 09:54 PM

System76 hat kürzlich mit seiner Cosmic-Desktop-Umgebung für Aufsehen gesorgt, die voraussichtlich am 8. August mit der nächsten großen Alpha-Version von Pop!_OS auf den Markt kommt. Ein aktueller Beitrag zu X von System76-CEO Carl Richell hat jedoch darauf hingewiesen, dass die Cosmic DE Entwickler

Weil er gut darin ist, sich vorzustellen Weil er gut darin ist, sich vorzustellen Jul 16, 2024 pm 08:59 PM

Was bedeutet es, weil er gut im Stalken ist? Ich glaube, dass viele Freunde einen solchen Kommentar in vielen Bereichen mit kurzen Videokommentaren gesehen haben. Heute hat Ihnen der Herausgeber eine Einführung in das Meme „Weil er gut ist“ gebracht Ich weiß es noch nicht, komm vorbei und schau es dir an. Der Ursprung des Memes „because he is good“: Das Meme „because he is good“ stammt aus dem Internet, ist insbesondere ein beliebtes Meme auf Kurzvideoplattformen wie Douyin, und steht in Zusammenhang mit einem Witz des bekannten Crosstalks Schauspieler Guo Degang. In diesem Absatz listete Guo Degang mehrere Gründe auf, etwas nicht auf humorvolle Weise zu tun. Jeder Grund endete mit „weil er gut ist“ und bildete einen humorvollen logischen geschlossenen Kreislauf und lustiger Ausdruck. Heiße Memes: Zum Beispiel: „Ich kann es nicht

Warum gibt es im Wohnheim keine Klimaanlage? Warum gibt es im Wohnheim keine Klimaanlage? Jul 11, 2024 pm 07:36 PM

Warum gibt es im Wohnheim keine Klimaanlage? Das Internet-Meme „Wo ist die Klimaanlage im Wohnheim?“ entstand aus den humorvollen Beschwerden von Studenten über die fehlende Klimaanlage in den Wohnheimen und drückt durch Übertreibung und Selbstironie den Wunsch nach einer kühlen und komfortablen Umgebung aus heißer Sommer und die realistischen Bedingungen, folgen wir dem Herausgeber, um einen Blick auf die Einleitung dieses Memes zu werfen. Wo ist die Klimaanlage im Wohnheim? Der Ursprung des Memes: „Wo ist die Klimaanlage im Wohnheim?“ Dieses Meme stammt aus einer Verspottung des Campuslebens, insbesondere für jene Schulwohnheime mit relativ einfachen Unterbringungsbedingungen und keiner Klimaanlage . Es spiegelt den Wunsch der Studierenden nach verbesserten Wohnbedingungen wider, insbesondere den Bedarf an Klimaanlagen in den heißen Sommermonaten. Dieses Meme wird im Internet verbreitet und häufig in der Kommunikation zwischen Schülern verwendet, um auf humorvolle Weise Frustration und Frustration über die fehlende Klimaanlage bei heißem Wetter auszudrücken.

See all articles