Python を使用して Baidu 音声認識インターフェイスに接続し、プログラムが人間の音声を理解できるようにします
人工知能テクノロジーの急速な発展により、私たちの生活はより便利になり、インテリジェンスが向上しました。 , 音声認識技術は重要な技術の一つです。音声認識技術により、人間の音声をコンピュータが処理して理解するのに便利なテキスト形式に変換できます。 Baidu 音声認識インターフェイスは、この機能を実現するための重要なツールです。
この記事では、Python を使用して Baidu 音声認識インターフェイスに接続し、プログラムが人間の音声を理解できるようにする方法を紹介します。この機能の実装にはBaiduのオープンプラットフォームと関連ツールを利用しますが、具体的な手順は以下の通りです。
ステップ 1: Baidu オープン プラットフォーム アカウントを申請する
まず、後続のインターフェイス呼び出しのために Baidu オープン プラットフォーム アカウントを登録する必要があります。 Baidu AI Open Platform の公式 Web サイト (https://ai.baidu.com/) を開き、右上の「今すぐ登録」ボタンをクリックし、登録情報を入力して登録を完了します。
登録が完了したら、Baidu AI オープン プラットフォームにログインし、コンソール ページに入ります。コンソール ページに [音声テクノロジー] オプションが表示され、クリックして音声テクノロジー ページに入ります。
ステップ 2: 音声認識アプリケーションを作成する
音声テクノロジー ページに [音声認識] オプションが表示され、クリックして音声認識ページに入ります。新しいアプリケーションは、ページ上部の「コンソール」タブで作成できます。
「アプリケーションの作成」をクリックし、アプリケーション名、説明などを入力して「作成」ボタンをクリックすると音声認識アプリケーションの作成が完了します。
作成が完了したら、アプリケーション一覧から作成したアプリケーションを見つけ、後続のコードで使用する「アプリ ID」、「API キー」、「シークレット キー」などの情報を記録します。 。
ステップ 3: 必要な依存ライブラリをインストールする
次に、Baidu の音声認識インターフェイスを呼び出せるように、必要な Python ライブラリをインストールする必要があります。コマンド ラインに次のコマンドを入力して、必要なライブラリをインストールします。
pip install baidu-aip
インストールが完了したら、次の手順に進みます。
ステップ 4: Python コードを作成する
次に、Baidu 音声認識インターフェイスを呼び出す Python コードを作成します。まず、関連するライブラリとモジュールをインポートする必要があります。コードは次のとおりです。
from aip import AipSpeech import os
次に、以前に取得した「アプリ ID」、「API キー」、および「秘密キー」を使用する必要があります。 Baidu オープン プラットフォーム認証用のコードは次のとおりです:
APP_ID = 'your_app_id' API_KEY = 'your_api_key' SECRET_KEY = 'your_secret_key' client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
次に、Baidu 音声認識インターフェイスを呼び出す関数を作成できます。コードは次のとおりです:
def speech_to_text(filepath): with open(filepath, 'rb') as fp: audio_data = fp.read() result = client.asr(audio_data, 'wav', 16000, {'dev_pid': 1537}) if 'result' in result.keys(): result_text = result['result'][0] print(result_text) return result_text else: print('识别失败') return None
このコードでは、client を使用します。asr()
関数は Baidu 音声認識インターフェイスを呼び出します。audio_data
パラメーターは音声データで、'wav'
パラメーターは、オーディオ形式は .wav、16000
このパラメータはオーディオ サンプリング レートが 16000Hz であることを示します。{'dev_pid': 1537}
パラメータは必要に応じて異なる値に設定できます。詳細については、Baidu 音声認識インターフェイスのドキュメントを参照してください。
ステップ 5: Baidu 音声認識インターフェイスを呼び出す
最後に、前に作成した関数をテストするコードを作成できます。まずオーディオ ファイルをローカルに保存し、次に speech_to_text()
関数を呼び出して音声認識を実行します。コードは次のとおりです:
if __name__ == '__main__': filepath = 'test.wav' # 音频文件的路径 result_text = speech_to_text(filepath)
このコードでは、 test .wav
をオーディオ ファイルへのパスとして使用する場合は、独自のオーディオ ファイルへのパスに置き換えることができます。
これまでに、Python を使用して Baidu 音声認識インターフェイスに接続する操作が完了しました。この例を通して、Baidu 音声認識インターフェイスの助けを借りて、プログラムが人間の音声を理解できるように、音声ファイルをテキスト形式に簡単に変換できることがわかります。
概要
この記事では、Python を使用して Baidu 音声認識インターフェイスに接続する手順を紹介し、対応するコード例を示します。 Baidu の音声認識インターフェイスに接続することで、プログラムは音声テキスト変換機能を実現し、よりインテリジェントなインタラクティブな体験を実現します。この記事が、Baidu 音声認識インターフェイスの使用に役立つことを願っています。
以上がPython を使用して Baidu 音声認識インターフェイスに接続し、プログラムが人間の音声を理解できるようにします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。