> 백엔드 개발 > 파이썬 튜토리얼 > Python에서 오디오 콘텐츠를 텍스트 형식으로 변환하는 방법

Python에서 오디오 콘텐츠를 텍스트 형식으로 변환하는 방법

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
풀어 주다: 2023-05-10 11:07:27
앞으로
1587명이 탐색했습니다.

개발 환경 구축

Python 가상 환경이 저장된 디렉터리로 이동합니다. 나는 사용자 홈 디렉터리 아래의 venvs 하위 디렉터리에 내 디렉터리를 보관합니다. 이 프로젝트에 대한 새 virtualenv를 생성하려면 다음 명령을 사용하십시오.

python3 -m venv ~/venvs/pytranscribe
로그인 후 복사

셸 명령으로 virtualenv 활성화:

source ~/venvs/pytranscribe/bin/activate
로그인 후 복사

위 명령을 실행한 후 명령 프롬프트가 변경되므로 virtualenv의 이름은 원래 명령 프롬프트 형식으로 시작됩니다. 프롬프트가 $인 경우 다음과 같습니다. 이 설명:

(pytranscribe) $
로그인 후 복사

각 virtualenv의 종속성을 사용하여 새 터미널 창에서 virtualenv를 활성화해야 한다는 점을 기억하세요.

이제 활성화되었지만 비어 있는 virtualenv에 요청 패키지를 설치할 수 있습니다.

pip install requests==2.24.0
로그인 후 복사

다음과 유사한 출력을 찾아 해당 패키지가 PyPI에서 올바르게 설치되었는지 확인하세요.

(pytranscribe) $ pip install requests==2.24.0  Collecting requests==2.24.0    Using cached https://files.pythonhosted.org/packages/45/1e/0c169c6a5381e241ba7404532c16a21d86ab872c9bed8bdcd4c423954103/requests-2.24.0-py2.py3-none-any.whl  Collecting certifi>=2017.4.17 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/5e/c4/6c4fe722df5343c33226f0b4e0bb042e4dc13483228b4718baf286f86d87/certifi-2020.6.20-py2.py3-none-any.whl  Collecting urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/9f/f0/a391d1463ebb1b233795cabfc0ef38d3db4442339de68f847026199e69d7/urllib3-1.25.10-py2.py3-none-any.whl  Collecting chardet<4,>=3.0.2 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/bc/a9/01ffebfb562e4274b6487b4bb1ddec7ca55ec7510b22e4c51f14098443b8/chardet-3.0.4-py2.py3-none-any.whl  Collecting idna<3,>=2.5 (from requests==2.24.0)    Using cached https://files.pythonhosted.org/packages/a2/38/928ddce2273eaa564f6f50de919327bf3a00f091b5baba8dfa9460f3a8a8/idna-2.10-py2.py3-none-any.whl  Installing collected packages: certifi, urllib3, chardet, idna, requests  Successfully installed certifi-2020.6.20 chardet-3.0.4 idna-2.10 requests-2.24.0 urllib3-1.25.10
로그인 후 복사

애플리케이션 코딩을 시작할 수 있도록 필요한 모든 종속성을 설치했습니다.

오디오 업로드, 실행 및 스크립트 작성

우리는 오디오를 텍스트로 변환하는 앱 구축을 시작하는 데 필요한 모든 것을 갖추고 있습니다. 이 애플리케이션은 다음 세 가지 파일로 구축됩니다.

1. upload_audio_file.py: 오디오 파일을 처리할 수 있도록 AssemblyAI 서비스의 안전한 위치에 업로드합니다. 공개 URL을 통해 이미 오디오 파일에 액세스할 수 있는 경우 이 단계를 수행할 필요가 없습니다. 이 빠른 시작을 따르세요

2.initial_transcription.py: 스크립트로 변환할 파일을 API에 알리고 즉시 시작하세요

3. get_transcription.py: 전사가 처리되는 동안 전사 상태를 표시하거나 처리가 완료되면 전사 결과를 표시하는 경우

파일을 작성하는 동안 파일을 저장하기 위해 pytranscribe라는 새 디렉터리를 만듭니다. 그런 다음 새 프로젝트 디렉터리로 이동합니다.

mkdir pytranscibe  cd pytranscribe
로그인 후 복사

또한 AssemblyAI API 키를 환경 변수로 내보내야 합니다. AssemblyAI 계정에 가입하고 AssemblyAI 대시보드에 로그인한 다음 "API 토큰"을 복사하세요.

export ASSEMBLYAI_KEY=your-api-key-here
로그인 후 복사

이 키에 액세스할 수 있도록 하려면 모든 명령줄 창에서 내보내기 명령을 사용해야 합니다. 스크립트를 실행 중인 환경에서 태그를 ASSEMBLYAI_KEY로 내보내지 않으면 우리가 작성 중인 스크립트가 API에 액세스할 수 없습니다.

이제 프로젝트 디렉토리를 생성하고 API 키를 환경 변수로 설정했으므로 오디오 파일을 AssemblyAI 서비스에 업로드할 첫 번째 파일에 대한 코드 작성으로 넘어가겠습니다.

오디오 파일을 업로드하고 복사하세요

upload_audio_file.py라는 새 파일을 만들고 다음 코드를 입력하세요.

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def upload_file_to_api(filename):      """Checks for a valid file and then uploads it to AssemblyAI      so it can be saved to a secure URL that only that service can access.      When the upload is complete we can then initiate the transcription      API call.      Returns the API JSON if successful, or None if file does not exist.      """      if not os.path.exists(filename):          return None      def read_file(filename, chunk_size=5242880):          with open(filename, 'rb') as _file:              while True:                  data = _file.read(chunk_size)                  if not data:                      break                  yield data      headers = {'authorization': os.getenv("ASSEMBLYAI_KEY")}      response = requests.post("".join([API_URL, "upload"]), headersheaders=headers,                               data=read_file(filename))      return response.json()
로그인 후 복사

위 코드는 argparse, os 및 요청 패키지를 가져옵니다. 이 스크립트. API_URL은 AssemblyAI 서비스의 기본 URL을 갖는 상수입니다. 단일 매개변수로 upload_file_to_api 함수를 정의합니다. filename은 파일의 절대 경로와 파일 이름을 포함하는 문자열이어야 합니다.

함수에서 파일이 존재하는지 확인한 다음 Request의 청크 분할 전송 인코딩을 사용하여 대용량 파일을 AssemblyAI API로 스트리밍합니다.

os 모듈의 getenv 함수는 getenv와 함께 내보내기 명령을 사용하여 명령줄에 설정된 API를 읽습니다. 이 스크립트를 실행하는 터미널에서 내보내기 명령을 사용해야 합니다. 그렇지 않으면 ASSEMBLYAI_KEY 값이 공백이 됩니다. 의심스러운 경우 echo $ASSEMBLY_AI를 사용하여 값이 API 키와 일치하는지 확인하세요.

upload_file_to_api 함수를 사용하려면 upload_audio_file.py 파일에 다음 코드 줄을 추가하여 Python 명령을 사용하여 호출된 스크립트로 이 코드를 올바르게 실행할 수 있습니다.

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("filename")      args = parser.parse_args()      upload_filename = args.filename      response_json = upload_file_to_api(upload_filename)      if not response_json:          print("file does not exist")      else:          print("File uploaded to URL: {}".format(response_json['upload_url']))
로그인 후 복사

위 코드는 다음을 허용하는 ArgumentParser 객체를 생성합니다. 애플리케이션은 명령줄에서 단일 매개변수를 사용하여 액세스하려는 개체를 지정하고 파일을 읽고 AssmeblyAI 서비스에 업로드합니다.

파일이 존재하지 않으면 스크립트는 파일을 찾을 수 없다는 메시지를 표시합니다. 경로에서 올바른 파일을 찾은 다음 upload_file_to_api 함수의 코드를 사용하여 파일을 업로드했습니다.

python 명령을 사용하여 명령줄에서 전체 upload_audio_file.py 스크립트를 실행합니다. FULL_PATH_TO_FILE을 업로드하려는 파일의 절대 경로(예: /Users/matt/devel/audio.mp3)로 바꿉니다.

python upload_audio_file.py FULL_PATH_TO_FILE
로그인 후 복사

지정한 위치에서 파일이 발견되었다고 가정하면 스크립트가 파일 업로드를 완료하면 고유 URL이 포함된 메시지가 인쇄됩니다.

File uploaded to URL: https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638
로그인 후 복사

이 URL은 공개되지 않으며 AssemblyAI 서비스에서만 사용할 수 있습니다. 따라서 귀하 외에는 누구도 사용할 수 없습니다. Transcription API 외부에서는 누구도 귀하의 파일과 그 내용에 접근할 수 없습니다.

중요한 부분은 URL의 마지막 부분입니다. 이 예에서는 463ce27f-0922-4ea9-9ce4-3353d84b5638입니다. 전사 서비스를 시작하는 다음 스크립트에 전달해야 하므로 이 고유 식별자를 저장하세요.

Start Transcription

다음으로, Transcription을 시작하는 코드를 작성하겠습니다. initial_transcription.py라는 새 파일을 만듭니다. 새 파일에 다음 코드를 추가합니다.

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  CDN_URL = "https://cdn.assemblyai.com/"  def initiate_transcription(file_id):      """Sends a request to the API to transcribe a specific      file that was previously uploaded to the API. This will      not immediately return the transcription because it takes      a moment for the service to analyze and perform the      transcription, so there is a different function to retrieve      the results.      """      endpoint = "".join([API_URL, "transcript"])      json = {"audio_url": "".join([CDN_URL, "upload/{}".format(file_id)])}      headers = {          "authorization": os.getenv("ASSEMBLYAI_KEY"),          "content-type": "application/json"      }      response = requests.post(endpoint, jsonjson=json, headersheaders=headers)      return response.json()
로그인 후 복사

이전 스크립트와 동일한 가져오기가 있고 AssemblyAI가 업로드된 오디오 파일을 저장하는 별도의 URL과 일치하는 새로운 상수 CDN_URL을 추가했습니다.

initiate_transcription函数本质上只是向AssemblyAI API设置了一个HTTP请求,以传入的特定URL对音频文件启动转录过程。这就是为什么file_id传递很重要的原因:完成音频文件的URL 我们告诉AssemblyAI进行检索。

通过附加此代码来完成文件,以便可以从命令行轻松地使用参数调用它。

if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("file_id")      args = parser.parse_args()      file_id = args.file_id      response_json = initiate_transcription(file_id)      print(response_json)
로그인 후 복사

通过在initiate_transcription文件上运行python命令来启动脚本,并传入您在上一步中保存的唯一文件标识符。

# the FILE_IDENTIFIER is returned in the previous step and will  # look something like this: 463ce27f-0922-4ea9-9ce4-3353d84b5638  python initiate_transcription.py FILE_IDENTIFIER
로그인 후 복사

API将发回该脚本打印到命令行的JSON响应。

{'audio_end_at': None, 'acoustic_model': 'assemblyai_default', 'text': None,    'audio_url': 'https://cdn.assemblyai.com/upload/463ce27f-0922-4ea9-9ce4-3353d84b5638',    'speed_boost': False, 'language_model': 'assemblyai_default', 'redact_pii': False,    'confidence': None, 'webhook_status_code': None,    'id': 'gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067', 'status': 'queued', 'boost_param': None,    'words': None, 'format_text': True, 'webhook_url': None, 'punctuate': True,   'utterances': None, 'audio_duration': None, 'auto_highlights': False,    'word_boost': [], 'dual_channel': None, 'audio_start_from': None}
로그인 후 복사

记下JSON响应中id键的值。这是我们需要用来检索转录结果的转录标识符。在此示例中,它是gkuu2krb1-8c7f-4fe3-bb69-6b14a2cac067。复制转录标识符到您自己的响应中,因为在下一步中我们将需要它来检查转录过程何时完成。

检索转录结果

我们已经上传并开始了转录过程,因此,准备就绪后,我们将尽快获得结果。

返回结果所需的时间取决于文件的大小,因此下一个脚本将向HTTP发送一个HTTP请求,并报告转录状态,或者在完成后打印输出。

创建一个名为 get_transcription.py 的第三个Python文件,并将以下代码放入其中。

import argparse  import os  import requests  API_URL = "https://api.assemblyai.com/v2/"  def get_transcription(transcription_id):      """Requests the transcription from the API and returns the JSON      response."""      endpoint = "".join([API_URL, "transcript/{}".format(transcription_id)])      headers = {"authorization": os.getenv('ASSEMBLYAI_KEY')}      response = requests.get(endpoint, headersheaders=headers)     return response.json() if __name__ == "__main__":      parser = argparse.ArgumentParser()      parser.add_argument("transcription_id")      args = parser.parse_args()      transcription_id = args.transcription_id      response_json = get_transcription(transcription_id)      if response_json['status'] == "completed":          for word in response_json['words']:              print(word['text'], end=" ")      else:          print("current status of transcription request: {}".format(                response_json['status']))
로그인 후 복사

上面的代码与其他脚本具有相同的 imports 对象。在这个新的get_transcription函数中,我们只需使用我们的API密钥和上一步中的转录标识符(而不是文件标识符)调用AssemblyAI API。我们检索JSON响应并将其返回。

在main函数中,我们处理作为命令行参数传入的转录标识符,并将其传递给get_transcription函数。如果来自get_transcription函数的响应JSON包含completed状态,则我们将打印转录结果。否则,请在completed之前打印当前状态如queued或processing。

使用命令行和上一节中的转录标识符调用脚本:

python get_transcription.py TRANSCRIPTION_ID
로그인 후 복사

如果该服务尚未开始处理脚本,则它将返回queued,如下所示:

current status of transcription request: queued
로그인 후 복사

当服务当前正在处理音频文件时,它将返回processing:

current status of transcription request: processing
로그인 후 복사

该过程完成后,我们的脚本将返回转录文本,如您在此处看到的那样:

An object relational mapper is a code library that automates the transfer of   data stored in relational, databases into objects that are more commonly used  in application code or EMS are useful because they provide a high level   ...(output abbreviated)
로그인 후 복사

위 내용은 Python에서 오디오 콘텐츠를 텍스트 형식으로 변환하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:yisu.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿