T4 を使用した Google Colab での Kokoro TTS 音声合成の探索-Python チュートリアル-php.cn

T4 を使用した Google Colab での Kokoro TTS 音声合成の探索

DDD

リリース： 2025-01-27 12:12:09

オリジナル

568 人が閲覧しました

Exploring Kokoro TTS Voice Synthesis on Google Colab with T4

kokoro-82m：高性能のテキスト転送音声（TTS）モデル探査

Kokoro-82Mは、高品質のオーディオを生成できる高性能TTSモデルです。単純なテキスト変換をサポートし、オーディオファイルアプリケーションの権利を保持することにより、音声合成を簡単に合成できます。

kokoro-82m バージョン0.23から始まり、ココロ-82Mも日本人をサポートしています。次のリンクから簡単に試すことができます。

[ココロTTSを抱きしめる顔のスペースについて] しかし、日本語のトーンはまだわずかに不自然です。 このチュートリアルでは、ココロとONNXを使用したTTS実装であるKokoro-Onnxを使用します。アメリカの英語と英語の英語の音声合成のみをサポートするバージョン0.19（安定したバージョン）を使用します。

タイトルに示されているように、コードはGoogle Colabで実行されます。

kokoro-onnx

をインストールします

パッケージをロードします

例音声合成をテストする前に、公式の例を実行しましょう。次のコードを実行して、数秒以内にオーディオを生成および再生します。音声合成

!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch
!pip install -U kokoro-onnx

ログイン後にコピー

さあ、テーマとテスト音声の合成を入力しましょう。

<义>音声パックを定義します

import numpy as np
from scipy.io.wavfile import write
from IPython.display import display, Audio
from models import build_model
import torch
from models import build_model
from kokoro import generate

ログイン後にコピー

af：アメリカ英語の女性の声

am：アメリカの英語の男性の声

device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # 默认语音是 Bella 和 Sarah 的 50-50 混合
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])

display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)

ログイン後にコピー

bf：イギリスの英語の女性の声

bm：英国の英語の男性の声

利用可能なすべての音声パッケージをロードします。

<预>事前に決められた音声を使用してテキストを生成する 合成音声の違いを確認するために、異なる音声パッケージを使用してオーディオを生成しましょう。同じ例のテキストを使用しますが、

変数を変更して、必要な音声パックを使用できます。

最初に、2つの英国の女性の声（BF）と組み合わされた平均的な声を作成しましょう。

最後に、アメリカとイギリスの男性の声のミックスを合成しましょう。

voicepack_af = torch.load(f'voices/af.pt', weights_only=True).to(device)
voicepack_af_bella = torch.load(f'voices/af_bella.pt', weights_only=True).to(device)
voicepack_af_nicole = torch.load(f'voices/af_nicole.pt', weights_only=True).to(device)
voicepack_af_sarah = torch.load(f'voices/af_sarah.pt', weights_only=True).to(device)
voicepack_af_sky = torch.load(f'voices/af_sky.pt', weights_only=True).to(device)
voicepack_am_adam = torch.load(f'voices/am_adam.pt', weights_only=True).to(device)
voicepack_am_michael = torch.load(f'voices/am_michael.pt', weights_only=True).to(device)
voicepack_bf_emma = torch.load(f'voices/bf_emma.pt', weights_only=True).to(device)
voicepack_bf_isabella = torch.load(f'voices/bf_isabella.pt', weights_only=True).to(device)
voicepack_bm_george = torch.load(f'voices/bm_george.pt', weights_only=True).to(device)
voicepack_bm_lewis = torch.load(f'voices/bm_lewis.pt', weights_only=True).to(device)

ログイン後にコピー

また、グレーディオを使用してハイブリッド音声の効果をテストしました：（ここでグラデーションデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります）この組み合わせとオラマの組み合わせは、いくつかの興味深い実験を生成する可能性があります。

この復活した出力は、エリックの音声パックを改善しながら、「ここに抱きしめる顔を挿入する必要がある」と忘れずに要約されています。グレードデモンストレーションのリンクまたはスクリーンショットに挿入する必要があります）」

以上がT4 を使用した Google Colab での Kokoro TTS 音声合成の探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。