Maison développement back-end Tutoriel Python Comment convertir du contenu audio au format texte en Python

Comment convertir du contenu audio au format texte en Python

May 10, 2023 am 11:07 AM
python

Créer un environnement de développement

Accédez au répertoire où l'environnement virtuel Python est enregistré. Je garde mon répertoire dans un sous-répertoire venvs sous le répertoire personnel de l'utilisateur. Utilisez la commande suivante pour créer un nouveau virtualenv pour ce projet.

python3 -m venv ~/venvs/pytranscribe
Copier après la connexion

Activez virtualenv avec la commande shell :

source ~/venvs/pytranscribe/bin/activate
Copier après la connexion

Après avoir exécuté la commande ci-dessus, l'invite de commande changera, donc le nom du virtualenv commencera par le format d'invite de commande d'origine, si votre invite est juste $, elle ressemblera à this Remarques :

(pytranscribe) $
Copier après la connexion

N'oubliez pas que vous devez activer votre virtualenv dans une nouvelle fenêtre de terminal en utilisant les dépendances dans chaque virtualenv.

Nous pouvons maintenant installer le package de requête dans le virtualenv activé mais vide.

pip install requests==2.24.0
Copier après la connexion

Recherchez un résultat similaire à celui-ci pour confirmer que le package correspondant a été correctement installé à partir de PyPI.

(pytranscribe) $ pip install requests==2.24.0  Collecting requests==2.24.0    Using cached https://files.pythonhosted.org/packages/45/1e/0c169c6a5381e241ba7404532c16a21d86ab872c9bed8bdcd4c423954103/requests-2.24.0-py2.py3-none-any.whl  Collecting certifi>=2017.4.17 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/5e/c4/6c4fe722df5343c33226f0b4e0bb042e4dc13483228b4718baf286f86d87/certifi-2020.6.20-py2.py3-none-any.whl  Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/9f/f0/a391d1463ebb1b233795cabfc0ef38d3db4442339de68f847026199e69d7/urllib3-1.25.10-py2.py3-none-any.whl  Collecting chardet<4,>=3.0.2 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl  Collecting idna<3,>=2.5 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/a2/38/928ddce2273eaa564f6f50de919327bf3a00f091b5baba8dfa9460f3a8a8/idna-2.10-py2.py3-none-any.whl  Installing collected packages: certifi, urllib3, chardet, idna, requests  Successfully installed certifi-2020.6.20 chardet-3.0.4 idna-2.10 requests-2.24.0 urllib3-1.25.10
Copier après la connexion

Nous avons installé toutes les dépendances requises afin que nous puissions commencer à coder l'application.

Téléchargez, lancez et transcrivez de l'audio

Nous avons tout ce dont vous avez besoin pour commencer à créer une application qui convertit l'audio en texte. Nous allons construire cette application en trois fichiers :

1. upload_audio_file.py : Téléchargez votre fichier audio dans un emplacement sécurisé sur le service AssemblyAI afin qu'il puisse être traité. Si votre fichier audio est déjà accessible via une URL publique, il n'est pas nécessaire d'effectuer cette étape, suivez simplement ce quickstart

2 : indiquez à l'API quel fichier vous souhaitez transcrire et démarrez-la immédiatement

3. get_transcription.py : Si Afficher l'état de la transcription pendant que la transcription est encore en cours de traitement, ou afficher les résultats de la transcription une fois le traitement terminé

Créez un nouveau répertoire appelé pytranscribe pour stocker les fichiers au fur et à mesure que nous les écrivons. Accédez ensuite au nouveau répertoire du projet.

mkdir pytranscibe  cd pytranscribe
Copier après la connexion

Nous devons également exporter la clé API AssemblyAI en tant que variable d'environnement. Créez un compte AssemblyAI et connectez-vous au tableau de bord AssemblyAI, puis copiez « votre jeton API »

export ASSEMBLYAI_KEY=your-api-key-here
Copier après la connexion

Veuillez noter que la commande d'exportation doit être utilisée dans chaque fenêtre de ligne de commande pour garantir que cette clé est accessible. Si vous n'exportez pas la balise sous ASSEMBLYAI_KEY dans l'environnement dans lequel vous exécutez le script, le script que nous écrivons ne pourra pas accéder à l'API.

Maintenant que nous avons créé le répertoire du projet et défini la clé API comme variable d'environnement, passons à l'écriture du code de notre premier fichier qui téléchargera le fichier audio sur le service AssemblyAI.

Téléchargez le fichier audio et transcrivez-le

Créez un nouveau fichier appelé upload_audio_file.py et mettez-y le code suivant :

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def upload_file_to_api(filename):      """Checks for a valid file and then uploads it to AssemblyAI      so it can be saved to a secure URL that only that service can access.      When the upload is complete we can then initiate the transcription      API call.      Returns the API JSON if successful, or None if file does not exist.      """      if not os.path.exists(filename):          return None      def read_file(filename, chunk_size=5242880):          with open(filename, 'rb') as _file:              while True:                  data = _file.read(chunk_size)                  if not data:                      break                  yield data      headers = {'authorization': os.getenv("ASSEMBLYAI_KEY")}      response = requests.post("".join([API_URL, "upload"]), headersheaders=headers,                               data=read_file(filename))      return response.json()
Copier après la connexion

Le code ci-dessus importe les packages argparse, os et request afin que nous puissions les utiliser dans ce scénario. API_URL est une constante qui possède l'URL de base du service AssemblyAI. Nous définissons la fonction upload_file_to_api avec un seul paramètre, filename doit être une chaîne contenant le chemin absolu du fichier et son nom de fichier.

Dans la fonction, nous vérifions si le fichier existe, puis utilisons l'encodage de transfert fragmenté de Request pour diffuser le fichier volumineux vers l'API AssemblyAI.

La fonction getenv du module os lit l'API définie sur la ligne de commande à l'aide de la commande export avec getenv. Assurez-vous d'utiliser la commande d'exportation dans le terminal exécutant ce script, sinon la valeur ASSEMBLYAI_KEY sera vide. En cas de doute, utilisez echo $ASSEMBLY_AI pour voir si la valeur correspond à votre clé API.

Pour utiliser la fonction upload_file_to_api, ajoutez les lignes de code suivantes au fichier upload_audio_file.py afin que nous puissions exécuter correctement ce code comme un script appelé à l'aide de la commande python :

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("filename")      args = parser.parse_args()      upload_filename = args.filename      response_json = upload_file_to_api(upload_filename)      if not response_json:          print("file does not exist")      else:          print("File uploaded to URL: {}".format(response_json['upload_url']))
Copier après la connexion

Le code ci-dessus crée un objet ArgumentParser, qui permet l'application doit prendre un seul paramètre de la ligne de commande pour spécifier l'objet auquel nous voulons accéder, lire et télécharger le fichier sur le service AssmeblyAI.

Si le fichier n'existe pas, le script affichera un message indiquant que le fichier est introuvable. Dans le chemin, nous avons trouvé le fichier correct, puis avons téléchargé le fichier en utilisant le code de la fonction upload_file_to_api.

Exécutez le script complet upload_audio_file.py en l'exécutant sur la ligne de commande à l'aide de la commande python. Remplacez FULL_PATH_TO_FILE par le chemin absolu du fichier que vous souhaitez télécharger, par exemple /Users/matt/devel/audio.mp3.

python upload_audio_file.py FULL_PATH_TO_FILE
Copier après la connexion

En supposant que le fichier soit trouvé à l'emplacement que vous avez spécifié, lorsque le script aura fini de télécharger le fichier, il imprimera un message avec une URL unique :

File uploaded to URL: https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638
Copier après la connexion

Cette URL n'est pas publique et ne peut être utilisée que par le service AssemblyAI, il ne sera donc utilisé par personne d'autre que vous. En dehors de son API de transcription, personne d'autre ne peut accéder à vos fichiers et à leur contenu.

La partie importante est la dernière partie de l'URL, qui dans cet exemple est 463ce27f-0922-4ea9-9ce4-3353d84b5638. Enregistrez cet identifiant unique car nous devons le transmettre au prochain script qui démarre le service de transcription.

Démarrer la transcription

Ensuite, nous écrirons du code pour démarrer la transcription. Créez un nouveau fichier appelé initial_transcription.py. Ajoutez le code suivant au nouveau fichier.

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  CDN_URL = "https://cdn.assemblyai.com/"  def initiate_transcription(file_id):      """Sends a request to the API to transcribe a specific      file that was previously uploaded to the API. This will      not immediately return the transcription because it takes      a moment for the service to analyze and perform the      transcription, so there is a different function to retrieve      the results.      """      endpoint = "".join([API_URL, "transcript"])      json = {"audio_url": "".join([CDN_URL, "upload/{}".format(file_id)])}      headers = {          "authorization": os.getenv("ASSEMBLYAI_KEY"),          "content-type": "application/json"      }      response = requests.post(endpoint, jsonjson=json, headersheaders=headers)      return response.json()
Copier après la connexion

Nous avons les mêmes importations que le script précédent et avons ajouté une nouvelle constante CDN_URL qui correspond à l'URL distincte où AssemblyAI stocke les fichiers audio téléchargés.

initiate_transcription函数本质上只是向AssemblyAI API设置了一个HTTP请求,以传入的特定URL对音频文件启动转录过程。这就是为什么file_id传递很重要的原因:完成音频文件的URL 我们告诉AssemblyAI进行检索。

通过附加此代码来完成文件,以便可以从命令行轻松地使用参数调用它。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("file_id")      args = parser.parse_args()      file_id = args.file_id      response_json = initiate_transcription(file_id)      print(response_json)
Copier après la connexion

通过在initiate_transcription文件上运行python命令来启动脚本,并传入您在上一步中保存的唯一文件标识符。

# the FILE_IDENTIFIER is returned in the previous step and will  # look something like this: 463ce27f-0922-4ea9-9ce4-3353d84b5638  python initiate_transcription.py FILE_IDENTIFIER
Copier après la connexion

API将发回该脚本打印到命令行的JSON响应。

{'audio_end_at': None, 'acoustic_model': 'assemblyai_default', 'text': None,    'audio_url': 'https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638',    'speed_boost': False, 'language_model': 'assemblyai_default', 'redact_pii': False,    'confidence': None, 'webhook_status_code': None,    'id': 'gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067', 'status': 'queued', 'boost_param': None,    'words': None, 'format_text': True, 'webhook_url': None, 'punctuate': True,   'utterances': None, 'audio_duration': None, 'auto_highlights': False,    'word_boost': [], 'dual_channel': None, 'audio_start_from': None}
Copier après la connexion

记下JSON响应中id键的值。这是我们需要用来检索转录结果的转录标识符。在此示例中,它是gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067。复制转录标识符到您自己的响应中,因为在下一步中我们将需要它来检查转录过程何时完成。

检索转录结果

我们已经上传并开始了转录过程,因此,准备就绪后,我们将尽快获得结果。

返回结果所需的时间取决于文件的大小,因此下一个脚本将向HTTP发送一个HTTP请求,并报告转录状态,或者在完成后打印输出。

创建一个名为 get_transcription.py 的第三个Python文件,并将以下代码放入其中。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def get_transcription(transcription_id):      """Requests the transcription from the API and returns the JSON      response."""      endpoint = "".join([API_URL, "transcript/{}".format(transcription_id)])      headers = {"authorization": os.getenv('ASSEMBLYAI_KEY')}      response = requests.get(endpoint, headersheaders=headers)     return response.json() if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("transcription_id")      args = parser.parse_args()      transcription_id = args.transcription_id      response_json = get_transcription(transcription_id)      if response_json['status'] == "completed":          for word in response_json['words']:              print(word['text'], end=" ")      else:          print("current status of transcription request: {}".format(                response_json['status']))
Copier après la connexion

上面的代码与其他脚本具有相同的 imports 对象。在这个新的get_transcription函数中,我们只需使用我们的API密钥和上一步中的转录标识符(而不是文件标识符)调用AssemblyAI API。我们检索JSON响应并将其返回。

在main函数中,我们处理作为命令行参数传入的转录标识符,并将其传递给get_transcription函数。如果来自get_transcription函数的响应JSON包含completed状态,则我们将打印转录结果。否则,请在completed之前打印当前状态如queued或processing。

使用命令行和上一节中的转录标识符调用脚本:

python get_transcription.py TRANSCRIPTION_ID
Copier après la connexion

如果该服务尚未开始处理脚本,则它将返回queued,如下所示:

current status of transcription request: queued
Copier après la connexion

当服务当前正在处理音频文件时,它将返回processing:

current status of transcription request: processing
Copier après la connexion

该过程完成后,我们的脚本将返回转录文本,如您在此处看到的那样:

An object relational mapper is a code library that automates the transfer of   data stored in relational, databases into objects that are more commonly used  in application code or EMS are useful because they provide a high level   ...(output abbreviated)
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python: exemples de code et comparaison PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Python vs JavaScript: communauté, bibliothèques et ressources Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Comment exécuter des programmes dans Terminal Vscode Comment exécuter des programmes dans Terminal Vscode Apr 15, 2025 pm 06:42 PM

Dans VS Code, vous pouvez exécuter le programme dans le terminal via les étapes suivantes: Préparez le code et ouvrez le terminal intégré pour vous assurer que le répertoire de code est cohérent avec le répertoire de travail du terminal. Sélectionnez la commande Run en fonction du langage de programmation (tel que Python de Python your_file_name.py) pour vérifier s'il s'exécute avec succès et résoudre les erreurs. Utilisez le débogueur pour améliorer l'efficacité du débogage.

Le code Visual Studio peut-il être utilisé dans Python Le code Visual Studio peut-il être utilisé dans Python Apr 15, 2025 pm 08:18 PM

VS Code peut être utilisé pour écrire Python et fournit de nombreuses fonctionnalités qui en font un outil idéal pour développer des applications Python. Il permet aux utilisateurs de: installer des extensions Python pour obtenir des fonctions telles que la réalisation du code, la mise en évidence de la syntaxe et le débogage. Utilisez le débogueur pour suivre le code étape par étape, trouver et corriger les erreurs. Intégrez Git pour le contrôle de version. Utilisez des outils de mise en forme de code pour maintenir la cohérence du code. Utilisez l'outil de liaison pour repérer les problèmes potentiels à l'avance.

Explication détaillée du principe docker Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

L'extension VScode est-elle malveillante? L'extension VScode est-elle malveillante? Apr 15, 2025 pm 07:57 PM

Les extensions de code vs posent des risques malveillants, tels que la cachette de code malveillant, l'exploitation des vulnérabilités et la masturbation comme des extensions légitimes. Les méthodes pour identifier les extensions malveillantes comprennent: la vérification des éditeurs, la lecture des commentaires, la vérification du code et l'installation avec prudence. Les mesures de sécurité comprennent également: la sensibilisation à la sécurité, les bonnes habitudes, les mises à jour régulières et les logiciels antivirus.

Peut-on exécuter le code sous Windows 8 Peut-on exécuter le code sous Windows 8 Apr 15, 2025 pm 07:24 PM

VS Code peut fonctionner sur Windows 8, mais l'expérience peut ne pas être excellente. Assurez-vous d'abord que le système a été mis à jour sur le dernier correctif, puis téléchargez le package d'installation VS Code qui correspond à l'architecture du système et l'installez comme invité. Après l'installation, sachez que certaines extensions peuvent être incompatibles avec Windows 8 et doivent rechercher des extensions alternatives ou utiliser de nouveaux systèmes Windows dans une machine virtuelle. Installez les extensions nécessaires pour vérifier si elles fonctionnent correctement. Bien que le code VS soit possible sur Windows 8, il est recommandé de passer à un système Windows plus récent pour une meilleure expérience de développement et une meilleure sécurité.

Python: automatisation, script et gestion des tâches Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

See all articles