ホームページ > バックエンド開発 > Python チュートリアル > T4 を使用した Google Colab での Kokoro TTS 音声合成の探索

T4 を使用した Google Colab での Kokoro TTS 音声合成の探索

DDD
リリース: 2025-01-27 12:12:09
オリジナル
507 人が閲覧しました

Exploring Kokoro TTS Voice Synthesis on Google Colab with T4

kokoro-82m:高性能のテキスト転送音声(TTS)モデル探査

Kokoro-82Mは、高品質のオーディオを生成できる高性能TTSモデルです。単純なテキスト変換をサポートし、オーディオファイルアプリケーションの権利を保持することにより、音声合成を簡単に合成できます。

kokoro-82m バージョン0.23から始まり、ココロ-82Mも日本人をサポートしています。次のリンクから簡単に試すことができます。

[ココロTTSを抱きしめる顔のスペースについて] しかし、日本語のトーンはまだわずかに不自然です。 このチュートリアルでは、ココロとONNXを使用したTTS実装であるKokoro-Onnxを使用します。アメリカの英語と英語の英語の音声合成のみをサポートするバージョン0.19(安定したバージョン)を使用します。

タイトルに示されているように、コードはGoogle Colabで実行されます。

kokoro-onnx

をインストールします

パッケージをロードします

例音声合成をテストする前に、公式の例を実行しましょう。次のコードを実行して、数秒以内にオーディオを生成および再生します。 音声合成
<code class="language-bash">!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch
!pip install -U kokoro-onnx</code>
ログイン後にコピー

さあ、テーマとテスト音声の合成を入力しましょう。

音声パックを定義します
<code class="language-python">import numpy as np
from scipy.io.wavfile import write
from IPython.display import display, Audio
from models import build_model
import torch
from models import build_model
from kokoro import generate</code>
ログイン後にコピー

af:アメリカ英語の女性の声

am:アメリカの英語の男性の声

<code class="language-python">device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # 默认语音是 Bella 和 Sarah 的 50-50 混合
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])

display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)</code>
ログイン後にコピー
bf:イギリスの英語の女性の声

bm:英国の英語の男性の声

利用可能なすべての音声パッケージをロードします。

事前に決められた音声を使用してテキストを生成する 合成音声の違いを確認するために、異なる音声パッケージを使用してオーディオを生成しましょう。同じ例のテキストを使用しますが、

変数を変更して、必要な音声パックを使用できます。
  • 音声合成:混合音声
  • 最初に、2つの英国の女性の声(BF)と組み合わされた平均的な声を作成しましょう。
  • 次に、2つの女性の声と男性の声の組み合わせを組み合わせましょう。
最後に、アメリカとイギリスの男性の声のミックスを合成しましょう。
<code class="language-python">voicepack_af = torch.load(f'voices/af.pt', weights_only=True).to(device)
voicepack_af_bella = torch.load(f'voices/af_bella.pt', weights_only=True).to(device)
voicepack_af_nicole = torch.load(f'voices/af_nicole.pt', weights_only=True).to(device)
voicepack_af_sarah = torch.load(f'voices/af_sarah.pt', weights_only=True).to(device)
voicepack_af_sky = torch.load(f'voices/af_sky.pt', weights_only=True).to(device)
voicepack_am_adam = torch.load(f'voices/am_adam.pt', weights_only=True).to(device)
voicepack_am_michael = torch.load(f'voices/am_michael.pt', weights_only=True).to(device)
voicepack_bf_emma = torch.load(f'voices/bf_emma.pt', weights_only=True).to(device)
voicepack_bf_isabella = torch.load(f'voices/bf_isabella.pt', weights_only=True).to(device)
voicepack_bm_george = torch.load(f'voices/bm_george.pt', weights_only=True).to(device)
voicepack_bm_lewis = torch.load(f'voices/bm_lewis.pt', weights_only=True).to(device)</code>
ログイン後にコピー

また、グレーディオを使用してハイブリッド音声の効果をテストしました:(ここでグラデーションデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります) この組み合わせとオラマの組み合わせは、いくつかの興味深い実験を生成する可能性があります。

この復活した出力は、エリックの音声パックを改善しながら、「ここに抱きしめる顔を挿入する必要がある」と忘れずに要約されています。グレードデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります)」

以上がT4 を使用した Google Colab での Kokoro TTS 音声合成の探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート