Python stellt eine Verbindung zur Alibaba Cloud-Schnittstelle her, um eine Echtzeit-Audiotranskriptionsfunktion zu implementieren.
Alibaba Cloud bietet eine Fülle von Diensten für künstliche Intelligenz, einschließlich Spracherkennungsfunktionen. Mit Hilfe der API-Schnittstelle von Alibaba Cloud können wir Python verwenden, um eine Echtzeit-Audiotranskriptionsfunktion zu implementieren. In diesem Artikel wird erläutert, wie Sie eine Verbindung zur Alibaba Cloud-Schnittstelle herstellen, Python für die Echtzeit-Audiotranskription verwenden und Codebeispiele bereitstellen.
Schritt 1: Alibaba Cloud AccessKey beantragen
Zuerst müssen wir ein Konto auf der offiziellen Website von Alibaba Cloud registrieren und einen AccessKey erstellen, um eine Verbindung zur Alibaba Cloud API-Schnittstelle herzustellen. Wählen Sie auf der Alibaba Cloud-Konsolenseite „AccessKey Management“ aus, um die AccessKey-Verwaltungsseite aufzurufen. Klicken Sie auf die Schaltfläche „AccessKey erstellen“, um AccessKey und AccessKeySecret zu erhalten.
Schritt 2: Alibaba Cloud SDK installieren
Als nächstes müssen wir Alibaba Cloud SDK installieren, um die Spracherkennungs-API-Schnittstelle von Alibaba Cloud aufzurufen. Öffnen Sie die Befehlszeile und führen Sie den folgenden Befehl aus, um das SDK zu installieren:
pip install aliyun-python-sdk-core pip install aliyunsdkcore
Schritt 3: Rufen Sie die Alibaba Cloud-Echtzeit-Spracherkennungs-API auf
Im Code müssen wir die relevanten Bibliotheken des Alibaba Cloud SDK einführen und festlegen AccessKey und AccessKeySecret:
from aliyunsdkcore.client import AcsClient from aliyunsdkcore.profile import region_provider accessKeyId = "your_access_key" secret = "your_access_secret" regionId = "cn-hangzhou" region_provider.add_endpoint('asr', regionId, 'asr.aliyuncs.com') client = AcsClient(accessKeyId, secret, regionId)
Als nächstes müssen wir die Parameter und Audiodaten für die Transkriptionserkennung festlegen und die Alibaba Cloud API-Schnittstelle für Echtzeit-Sprachtranskription aufrufen:
import base64 import json def transcribe_audio(audio_data): request = CommonRequest() request.set_domain('asr.cn-hangzhou.aliyuncs.com') request.set_version('2019-08-01') request.set_product('nls-filetrans') request.set_action_name('SubmitTask') audio_base64 = base64.b64encode(audio_data).decode('utf-8') task = { "app_key": accessKeyId, "file_link": "", "content": audio_base64, "enable_words": False, "enable_syllable": False, "enable_format": False, "enable_punctuation": False, "result_url": "", "result_format": "json" } request.add_body_params('task', json.dumps(task)) response = client.do_action(request) result = json.loads(response.decode('utf-8')) taskId = result["data"]["taskId"] return taskId
Im obigen Code verwenden wir Base64, um die zu kodieren Audiodaten und erstellen Sie die API-Schnittstellenaufrufanforderung, einschließlich accessKeyId, Audiodaten und anderen Transkriptionsparametern. Wir senden eine Anfrage, indem wir die Methode do_action() von AcsClient aufrufen und erhalten die Aufgaben-ID der Echtzeit-Spracherkennung.
Schritt 4: Erhalten Sie die Ergebnisse der Sprachtranskription in Echtzeit
Nach Abschluss der Echtzeit-Spracherkennungsaufgabe müssen wir die Transkriptionsergebnisse abrufen. Alibaba Cloud bietet eine API-Schnittstelle zum Abfragen von Aufgabenergebnissen. Wir können diese Schnittstelle zum Abfragen verwenden, um Aufgabenergebnisse zu erhalten.
def get_transcribe_result(taskId): request = CommonRequest() request.set_domain('asr.cn-hangzhou.aliyuncs.com') request.set_version('2019-08-01') request.set_product('nls-filetrans') request.set_action_name('GetTaskResult') request.add_query_param('taskId', taskId) response = client.do_action(request) result = json.loads(response.decode('utf-8')) if result["code"] == 200000: status = result["data"]["taskStatus"] if status == 'Success': result_url = result["data"]["result"]["resultUrl"] response = urllib.request.urlopen(result_url) transcript = response.read().decode('utf-8') return transcript return None
Im obigen Code verwenden wir Abfragen, um die Aufgabenergebnisse zu erhalten, bis die Aufgabe abgeschlossen ist oder eine Zeitüberschreitung auftritt. Wenn die Aufgabe erfolgreich abgeschlossen wird, können wir die URL des transkribierten Ergebnisses abrufen und die URLlib-Bibliothek verwenden, um das Ergebnis abzurufen.
Schritt 5: Führen Sie den Echtzeit-Audiotranskodierungscode aus
In der Hauptfunktion können wir die obigen Schritte in eine Funktion kapseln und die Audiodaten zur Transkription übergeben. Wir können die Audiodaten aus der Datei lesen und die Transkriptionsergebnisse in der Datei speichern.
def main(): audio_path = "audio.wav" audio_data = read_audio_file(audio_path) taskId = transcribe_audio(audio_data) print("Task ID:", taskId) transcript = None while transcript is None: transcript = get_transcribe_result(taskId) time.sleep(2) transcript_path = "transcript.txt" with open(transcript_path, "w") as f: f.write(transcript) print("Transcript saved to:", transcript_path) if __name__ == "__main__": main()
Das Obige ist das vollständige Codebeispiel der Echtzeit-Audiotranskriptionsfunktion. Wir können die zu transkribierenden Audiodateien vorbereiten und nach der Ausführung des Codes die Transkriptionsergebnisse der Audiodaten in Echtzeit abrufen und in der angegebenen Datei speichern.
Zusammenfassung
In diesem Artikel wird erläutert, wie Sie mithilfe von Python eine Verbindung zur Alibaba Cloud-Schnittstelle herstellen und eine Echtzeit-Audiotranskriptionsfunktion implementieren. Durch die Beantragung des Alibaba Cloud AccessKey, die Installation des Alibaba Cloud SDK und den Aufruf der Alibaba Cloud API-Schnittstelle können wir die Echtzeit-Audiotranskriptionsfunktion problemlos in Python implementieren. Bei der Verwendung der Alibaba Cloud API müssen wir auf Parametereinstellungen und Ergebnisabfragen achten, um genaue Ergebnisse der Audiotranskription zu erhalten.
Anhang
Das vollständige Codebeispiel finden Sie auf GitHub: [https://github.com/example/transcribe-python](https://github.com/example/transcribe-python)
Das obige ist der detaillierte Inhalt vonPython stellt eine Verbindung zur Alibaba Cloud-Schnittstelle her, um eine Audio-Transkodierungsfunktion in Echtzeit zu realisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!