Google CloudのテキストからスピーチAPIを始める方法-IT業界-php.cn

Google CloudのテキストからスピーチAPIを始める方法

Jennifer Aniston

リリース： 2025-02-09 10:24:10

オリジナル

209 人が閲覧しました

How to Get Started With Google Cloud's Text-to-Speech API

このチュートリアルは、Google CloudのテキストからスピーチAPIのセットアップと使用を紹介し、コードの例と説明を提供することをガイドします。 Google CloudのテキストからスピーチAPIの重要な利点：

Google CloudのテキストからスピーチのAPIは、テキストを自然なサウンドの音声に変換します。アクセシビリティツール、仮想アシスタント、eラーニングプラットフォーム、オーディオブック、言語学習アプリ、マーケティング資料、通信システムなどのアプリケーションに最適です。

始めましょう：前提条件とセットアップ：

APIを使用するには、Google Cloud Platform（GCP）アカウント、基本的なPythonプログラミングスキル、およびテキストエディターが必要です。このプロセスには、APIの有効化、API資格情報の作成、Python環境の構成、Pythonスクリプトの作成、スクリプトの実行、およびオプションで音声設定とオーディオ設定のカスタマイズが含まれます。ステップバイステップガイド：

テキストからスピーチへのAPIを有効にします：

GCPコンソールにアクセスし、プロジェクトを選択または作成し、APIライブラリでテキストからスピーチのAPIを見つけて、有効にします。

API資格情報の作成：GCP資格情報セクションで、サービスアカウントを作成し、「クラウドテキストからスピーチAPIユーザー」の役割を割り当て、JSONキーファイルをダウンロードします。このファイルを安全に保ちます。
Python環境をセットアップします：PIPを使用してGoogle Cloud SDKと
ライブラリをインストールします。 JSONキーファイルのパスを指すように
Pythonスクリプトを作成します：google-cloud-texttospeech GOOGLE_APPLICATION_CREDENTIALS
スクリプトを実行します：
端末からPythonスクリプトを実行します。これにより、mp3ファイルが生成されます

from google.cloud import texttospeech

def synthesize_speech(text, output_filename):
    client = texttospeech.TextToSpeechClient()
    input_text = texttospeech.SynthesisInput(text=text)
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US", ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
    )
    audio_config = texttospeech.AudioConfig(audio_encoding=texttospeech.AudioEncoding.MP3)
    response = client.synthesize_speech(input=input_text, voice=voice, audio_config=audio_config)
    with open(output_filename, "wb") as out:
        out.write(response.audio_content)
    print(f"Audio saved to '{output_filename}'")

synthesize_speech("Hello, world!", "output.mp3")

ログイン後にコピー

音声パラメーター（言語コード、性別など）とオーディオ設定（エンコーディング、サンプルレート）をスクリプト内で変更します。利用可能なオプションについては、APIドキュメントを参照してください

高度な構成オプション：
APIは広範なカスタマイズを提供しています：

出力オーディオ形式（mp3、wavなど）を制御します。

> オーディオサンプルレート：

オーディオ品質を調整します

言語コード：

音声選択：
ssmlサポート：
結論：
このチュートリアルは、Google CloudのテキストからスピーチAPIを使用するための基盤を提供します。この強力なツールをプロジェクトに統合するためのより高度な機能と機能については、APIドキュメントを調べてください。

よくある質問（FAQ）：
元のテキストのFAQセクションは、簡潔さと明確さのために要約され、言い換えられています。
- APIは無料ではありません。価格はキャラクターの使用に基づいていますが、無料の層が存在します。商業用使用：
- 言語サポート：40以上の言語とバリエーションを超える。
- 音声のカスタマイズ：広範なカスタマイズオプションが利用可能です。
- オフラインの使用：不可能です。インターネット接続が必要です。
- オーディオ品質：高品質の自然な音声スピーチ。
- オーディオブックの作成：オーディオブックの作成に適していますが、データのボリュームとコストを考慮してください。