si rapide! Reconnaissez la parole vidéo en texte en quelques minutes seulement avec moins de 10 lignes de code-IA-php.cn

Table des matières

Whisper

Fast-Whisper

Que puis-je faire

Client

Maison

Périphériques technologiques

si rapide! Reconnaissez la parole vidéo en texte en quelques minutes seulement avec moins de 10 lignes de code

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 27, 2024 pm 01:55 PM

抖音语音识别 pytorch rust

si rapide! Reconnaissez la parole vidéo en texte en quelques minutes seulement avec moins de 10 lignes de code

Bonjour à tous, je suis Kite

Il y a deux ans, le besoin de convertir des fichiers audio et vidéo en contenu texte était difficile à réaliser, mais maintenant il peut être facilement résolu en quelques minutes seulement.

On dit que afin d'obtenir des données de formation, certaines entreprises ont entièrement exploré des vidéos sur des plateformes de vidéos courtes telles que Douyin et Kuaishou, puis ont extrait l'audio des vidéos et les ont converties sous forme de texte pour être utilisées comme corpus de formation pour modèles de mégadonnées.

Si vous avez besoin de convertir des fichiers vidéo ou audio en texte, vous pouvez essayer cette solution open source disponible aujourd'hui. Par exemple, vous pouvez rechercher les moments précis où apparaissent les dialogues dans les programmes de cinéma et de télévision.

Sans plus attendre, entrons dans le vif du sujet.

Whisper

Cette solution est le Whisper open source d'OpenAI. Bien sûr, il est écrit en Python. Il vous suffit d'installer quelques packages, puis d'écrire quelques lignes de code et d'attendre un moment (en fonction des performances de votre machine). et la longueur audio et vidéo (différente), le contenu textuel final sort, c'est aussi simple que cela.

Adresse de l'entrepôt GitHub : https://github.com/openai/whisper

Fast-Whisper

Bien qu'il soit assez simplifié, il n'est toujours pas suffisamment rationalisé pour les programmeurs. Après tout, les programmeurs ont tendance à préférer la simplicité et l’efficacité. Bien qu'il soit relativement facile à installer et à appeler Whisper, vous devez toujours installer PyTorch, ffmpeg et même Rust séparément.

C'est ainsi qu'est né Fast-Whisper, qui est plus rapide et plus simple que Whisper. Fast-Whisper n'est pas seulement une simple encapsulation de Whisper, mais une reconstruction du modèle Whisper d'OpenAI à l'aide de CTranslate2. CTranslate2 est un moteur d'inférence efficace pour le modèle Transformer.

Pour résumer, il est plus rapide que Whisper. Le communiqué officiel est qu'il est 4 à 8 fois plus rapide que Whisper. Non seulement il prend en charge le GPU, mais il prend également en charge le CPU, et même mon Mac cassé peut être utilisé.

Adresse de l'entrepôt GitHub : https://github.com/SYSTRAN/faster-whisper

L'utilisation ne prend que deux étapes.

Installer les packages de dépendances

pip install faster-whisper

Copier après la connexion

Écrire du code,

from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

Copier après la connexion

Oui, c'est aussi simple que cela.

Que puis-je faire

Il se trouve qu'il y a un ami qui veut faire de courtes vidéos et publier des vidéos de littérature sur la soupe au poulet qui proviennent d'entretiens avec des personnes célèbres. Cependant, il ne voulait pas revoir la vidéo en entier, il voulait juste utiliser le moyen le plus rapide pour obtenir le contenu du texte, puis lire le texte, car lire du texte est beaucoup plus rapide que regarder une vidéo, et cela peut aussi être cherché.

Laissez-moi juste vous dire, si vous n'avez même pas la piété de regarder une vidéo complète, comment bien gérer un compte ?

Alors j'en ai fait un pour lui, en utilisant Fast-Whisper.

Client

Le client utilise Swift et ne prend en charge que Mac.

Sélectionnez une vidéo ;
Puis cliquez sur "Extraire le texte", puis l'interface Python sera appelée et vous devrez attendre un moment ;
Chargez le texte analysé et les heures de début et de fin qui apparaissent ; Sélectionnez une heure de début et un événement de fin
Cliquez sur le bouton "Exporter", et le clip vidéo sera exporté

, durée 00:10

Côté serveur

Le côté serveur est bien sûr ; Python, puis packagé avec Flask, ouvrez l'interface avec le monde extérieur.

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7494

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Une collection complète de packs d'expression de femmes étrangères Jul 15, 2024 pm 05:48 PM

Quelles sont les émoticônes des femmes étrangères ? Récemment, le package d'émoticônes d'une femme étrangère est devenu très populaire sur Internet. Je pense que de nombreux amis le rencontreront en regardant des vidéos. Ci-dessous, l'éditeur partagera avec vous quelques packages d'émoticônes correspondants. Si vous êtes intéressé, venez jeter un œil. Une collection complète de packs d'expression de femmes étrangères

Bytedance Cutting lance le super abonnement SVIP : 499 yuans pour un abonnement annuel continu, offrant une variété de fonctions d'IA Jun 28, 2024 am 03:51 AM

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

J'ai été honnête et j'ai demandé d'abandonner l'introduction du mème. Jul 17, 2024 am 05:44 AM

Que signifie être honnête et lâcher prise ? En tant que mot à la mode sur Internet, « J'ai été honnête et j'ai supplié d'être laissé partir » est né d'une série de discussions humoristiques sur la hausse des prix des matières premières. Cette expression est désormais principalement utilisée dans des situations d'autodérision ou de ridicule, ce qui signifie que les individus sont confrontés à des situations spécifiques. (comme la pression, lorsque vous taquinez ou plaisantez), vous sentez que vous ne pouvez pas résister ou argumenter. Suivons l'éditeur pour voir l'introduction de ce mème. Source d'introduction au mème de « Déjà suppliant de le laisser partir » : « Déjà suppliant de le laisser partir » vient de « Si vous ajoutez un trésor ponctuel, vous serez honnête », et a ensuite évolué vers « Si Liqun monte par deux yuans, vous serez honnête" et "Le thé noir glacé augmentera d'un yuan." Les internautes ont crié « J'ai été honnête et j'ai demandé une réduction de prix », qui s'est finalement transformé en « J'ai été honnête et j'ai demandé à être relâché » et un paquet d'émoticônes est né. Utilisation : Utilisé pour briser la défense, ou lorsqu'il n'y a pas d'autre moyen, ou même pour soi-même

Je t'adore, je t'adore, une liste complète d'émoticônes Jul 15, 2024 am 11:25 AM

Quelles sont certaines des émoticônes de « Je t'adore, je t'adore » ? Le pack d'expressions "Je t'adore, je t'adore" vient de la "Série Big Brother et Little Brother" créée par le blogueur en ligne He Diudiu Buchuudi. Dans cette série, le frère aîné aide le frère cadet à temps lorsqu'il fait face à des difficultés. et puis le jeune frère utilisera cette ligne pour exprimer L'admiration et la gratitude extrêmes ont formé un mème Internet drôle et respectueux. Suivons l'éditeur pour profiter des émoticônes. Je t'adore, je t'adore, une liste complète d'émoticônes

Introduction à la signification du terrier rouge chaud Jul 12, 2024 pm 03:39 PM

Qu'est-ce que la température rouge ? Le mème rouge chaud est originaire du cercle des sports électroniques, faisant spécifiquement référence au phénomène du visage de l'ancien joueur professionnel de "League of Legends", Uzi, qui devient rouge lorsqu'il est nerveux ou excité pendant le jeu. C'est devenu une expression intéressante sur Internet. pour décrire les visages des gens qui deviennent rouges à cause de l'excitation et de l'anxiété. Ce qui suit est Suivons l'éditeur pour voir l'introduction détaillée de ce mème. Introduction à la signification du mème Hongwen « Red Wen » en tant que mème Internet originaire de la culture de la diffusion en direct dans le domaine des sports électroniques, en particulier de la communauté liée à « League of Legends » (League of Legends). Ce mème a été utilisé à l'origine pour décrire un phénomène caractéristique de l'ancien joueur professionnel Uzi (Jian fièrement) dans le jeu. Lorsque Uzi joue, son visage devient extrêmement rose en raison de la nervosité, de la concentration ou de l'émotion. Cet état est comparé en plaisantant au héros du jeu "Rambo" par le public.

System76 conseille la version Fedora Cosmic pour la version 2025 avec Fedora 42 Aug 01, 2024 pm 09:54 PM

System76 a récemment fait des vagues avec son environnement de bureau Cosmic, dont le lancement est prévu avec la prochaine version alpha majeure de Pop!_OS le 8 août. Cependant, un article récent sur X du PDG de System76, Carl Richell, a indiqué que Cosmic DE développeur

Parce qu'il est doué pour les présentations Jul 16, 2024 pm 08:59 PM

Qu'est-ce que cela signifie parce qu'il est doué pour traquer ? Je crois que de nombreux amis ont vu un tel commentaire dans de nombreuses zones de commentaires vidéo courts. Alors qu'est-ce que cela signifie parce qu'il est bon ? Aujourd'hui, l'éditeur vous a présenté une introduction au mème « parce qu'il est bon » ? qui ne le sait pas encore, venez jeter un oeil. L'origine du mème « Parce qu'il est bon » : Le mème « Parce qu'il est bon » provient d'Internet, en particulier d'un mème populaire sur les plateformes de vidéos courtes telles que Douyin, et est lié à une blague du célèbre cross talk l'acteur Guo Degang. Dans ce paragraphe, Guo Degang a énuméré plusieurs raisons de ne pas faire quelque chose de manière humoristique. Chaque raison se terminait par « parce qu'il est bon », formant une boucle logique humoristique. En fait, il n'y a pas de relation causale directe, mais une absurdité. et une expression drôle. Mèmes chauds : par exemple : « Je ne peux pas le faire

Pourquoi n'y a-t-il pas de climatiseur dans le dortoir ? Jul 11, 2024 pm 07:36 PM

Pourquoi n'y a-t-il pas de climatiseur dans le dortoir ? Le mème Internet « Où est la climatisation dans le dortoir ? » est né des plaintes humoristiques formulées par des étudiants concernant le manque de climatisation dans les dortoirs, exprimant par exagération et autodérision le désir d'un environnement frais et confortable dans le dortoir. l'été chaud et les conditions réalistes. Le contraste, suivons l'éditeur pour jeter un œil à l'introduction de ce mème. Où est la climatisation dans le dortoir ? L'origine du mème : « Où est la climatisation dans le dortoir ? » Ce mème vient d'un ridicule de la vie sur le campus, en particulier pour les dortoirs scolaires avec des conditions d'hébergement relativement basiques et pas de climatisation. . Il reflète le désir des étudiants d'améliorer les conditions de logement, notamment le besoin de climatisation pendant les chauds mois d'été. Ce mème circule sur Internet et est souvent utilisé dans la communication entre étudiants pour exprimer avec humour la frustration et la frustration face au manque de climatisation par temps chaud.

See all articles