目录
正文
背景
语音合成系统
准备工作
步骤
代码实现
首页 后端开发 Python教程 利用Python打造一个语音合成系统

利用Python打造一个语音合成系统

Apr 13, 2023 pm 11:40 PM
python 代码 语音合成

利用Python打造一个语音合成系统

正文

大家好,我是Python人工智能技术

背景

一直对语音合成系统比较感兴趣,总想能给自己合成一点内容,比如说合成小说,把我下载的电子书播报给我听等等。

利用Python打造一个语音合成系统

语音合成系统

其实就是一个基于语音合成的工具,但是这个东西由于很多厂家都提供了API的形式,因此开发难度大大降低,只需要调用几个API即可实现属于自己的语音合成工具;麻雀虽小,五脏俱全。往大了说,这就是一个小型的语音合成系统。

准备工作

首先我们电脑上需要安装

  1. Anaconda
  2. Python 3.7
  3. visual studio code

步骤

这里我们选用讯飞开放平台的WebAPI接口。

https://www.xfyun.cn/doc/tts/online_tts/API.html

首先我们到控制台创建一个应用

利用Python打造一个语音合成系统

创建好了之后,点击该应用进入,有该应用的详细栏目。

点击左侧的语音合成,再到下一级在线语音合成(流式版)

利用Python打造一个语音合成系统

在右上侧,我们需要拿到3个东西:

  1. APPID
  2. APISecret
  3. APIKey

代码实现

好了接下来进行代码实现了,首先安装我们需要的两个库。

pip install websocket-client
pip install playsound
登录后复制

接下来我们定义一个类play,包含4个函数

class play:
 def __init__(self): #初始化函数
 def play_sound(self):#播放音频函数
 def select_vcn(self,*arg):#选择下拉框设置发音人
 def xfyun_tts(self):#进行语音合成
登录后复制

在这里,大家需要填上刚才从讯飞开放平台控制台获取到的appid、appkey以及appsecret

def __init__(self):
 self.APP_ID = 'xxx' #请填上自己的appid
 self.API_KEY = 'xxx'#请填上自己的appkey
 self.SECRET_KEY = 'xxx' #请填上自己的appsecret
 self.root=tk.Tk() #初始化窗口
 self.root.title("语音合成系统") #窗口名称
 self.root.geometry("600x550") #设置窗口大小
 self.root.resizable(0,0)
 #self.root.resizable(width=True,height=True)#设置窗口是否可变,宽不可变,高可变,默认为True
 self.lb=tk.Label(self.root,text='请选择语音发音人')#标签
 self.tt=tk.Text(self.root,width=77,height=30) #多行文本框
 self.cb=ttk.Combobox(self.root, width=12)#下拉列表框
#设置下拉列表框的内容
 self.cb['values']=("甜美女声-小燕","亲切男声-许久","知性女声-小萍", "可爱童声-许小宝","亲切女声-小婧")
 self.cb.current(0)#将当前选择状态置为0,也就是第一项
 self.cb.bind("<<ComboboxSelected>>", self.select_vcn)
 self.tk_tts_file=tk.Label(self.root,text='生成文件名')
 self.b1=tk.Button(self.root, text='进行语音合成', width=10,height=1,command=self.xfyun_tts) #按钮
 self.tk_play=tk.Button(self.root, text='播放', width=10,height=1,command=self.play_sound) #按钮
 #各个组件的位置
 self.tk_tts_file.place(x=30,y=500)
 self.b1.place(x=300,y=500)
 self.tk_play.place(x=400,y=500)
 self.lb.place(x=30,y=30)
 self.cb.place(x=154,y=30)
 self.tt.place(x=30,y=60)
 self.root.mainloop()
登录后复制

当选择了下拉列表,设置对应的发音人

def select_vcn(self,*arg):
 if self.cb.get()=='甜美女声-小燕':
 self.vcn="xiaoyan"
 elif self.cb.get()=='亲切男声-许久':
 self.vcn="aisjiuxu"
 elif self.cb.get()=='知性女声-小萍':
 self.vcn="aisxping"
 elif self.cb.get()=='可爱童声-许小宝':
 self.vcn="aisbabyxu"
 elif self.cb.get()=='亲切女声-小婧':
 self.vcn="aisjinger"
 print(self.vcn)
登录后复制

接下来我们来魔改讯飞自带的Python demo为从而更加方便的来使用。另外,搜索公众号程序员小乐后台回复“赚钱”,获取一份惊喜礼包。

# -*- coding:utf-8 -*-
#
# author: iflytek
#
#本demo测试时运行的环境为:Windows + Python3.7
#本demo测试成功运行时所安装的第三方库及其版本如下:
# cffi==1.12.3
# gevent==1.4.0
# greenlet==0.4.15
# pycparser==2.19
# six==1.12.0
# websocket==0.2.1
# websocket-client==0.56.0
# 合成小语种需要传输小语种文本、使用小语种发音人vcn、tte=unicode以及修改文本编码方式
#错误码链接:https://www.xfyun.cn/document/error-code (code返回错误码时必看)
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
import websocket
import datetime
import hashlib
import base64
import hmac
import json
from urllib.parse import urlencode
import time
import ssl
from wsgiref.handlers import format_date_time
from datetime import datetime
from time import mktime
import _thread as thread
import os
import wave
STATUS_FIRST_FRAME = 0# 第一帧的标识
STATUS_CONTINUE_FRAME = 1# 中间帧标识
STATUS_LAST_FRAME = 2# 最后一帧的标识
PCM_PATH = "./demo.pcm"
class Ws_Param(object):
 # 初始化
 def __init__(self):
 pass
 def set_tts_params(self, text, vcn):
 if text != "":
 self.Text = text
 if vcn != "":
 self.vcn = vcn
 # 业务参数(business),更多个性化参数可在官网查看
 self.BusinessArgs = {"bgs":1,"aue": "raw", "auf": "audio/L16;rate=16000", "vcn": self.vcn, "tte": "utf8"}
 #使用小语种须使用以下方式,此处的unicode指的是 utf16小端的编码方式,即"UTF-16LE"”
 #self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-16')), "UTF8")}
 self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-8')), "UTF8")}
 def set_params(self, appid, apiSecret, apiKey):
 if appid != "":
 self.APPID = appid
 # 公共参数(common)
 self.CommonArgs = {"app_id": self.APPID}

 if apiKey != "":
 self.APIKey = apiKey

 if apiSecret != "":
 self.APISecret = apiSecret
 # 生成url
 def create_url(self):
 url = 'wss://tts-api.xfyun.cn/v2/tts'
 # 生成RFC1123格式的时间戳
 now = datetime.now()
 date = format_date_time(mktime(now.timetuple()))
 # 拼接字符串
 signature_origin = "host: " + "ws-api.xfyun.cn" + "n"
 signature_origin += "date: " + date + "n"
 signature_origin += "GET " + "/v2/tts " + "HTTP/1.1"
 # 进行hmac-sha256进行加密
 signature_sha = hmac.new(self.APISecret.encode('utf-8'), signature_origin.encode('utf-8'),
digestmod=hashlib.sha256).digest()
 signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')
 authorization_origin = "api_key="%s", algorithm="%s", headers="%s", signature="%s"" % (
 self.APIKey, "hmac-sha256", "host date request-line", signature_sha)
 authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')
 # 将请求的鉴权参数组合为字典
 v = {
 "authorization": authorization,
 "date": date,
 "host": "ws-api.xfyun.cn"
 }

 url = url + '?' + urlencode(v)

 return url
def on_message(ws, message):
 try:
 #print(message)
 try:
 message =json.loads(message)
 except Exception as e:
 print("111",e)
 code = message["code"]
 sid = message["sid"]
 audio = message["data"]["audio"]
 audio = base64.b64decode(audio)
 status = message["data"]["status"]
 print(code, sid, status)
 if status == 2:
 print("ws is closed")
 ws.close()
 if code != 0:
 errMsg = message["message"]
 print("sid:%s call error:%s code is:%s" % (sid, errMsg, code))
 else:
 with open(PCM_PATH, 'ab') as f:
 f.write(audio)
 except Exception as e:
 print("receive msg,but parse exception:", e)
# 收到websocket错误的处理
def on_error(ws, error):
 print("### error:", error)
# 收到websocket关闭的处理
def on_close(ws):
 print("### closed ###")
# 收到websocket连接建立的处理
def on_open(ws):
 def run(*args):
 d = {"common": wsParam.CommonArgs,
"business": wsParam.BusinessArgs,
"data": wsParam.Data,
}
 d = json.dumps(d)
 print("------>开始发送文本数据")
 ws.send(d)
 if os.path.exists(PCM_PATH):
 os.remove(PCM_PATH)
 thread.start_new_thread(run, ())
def text2pcm(appid, apiSecret, apiKey, text, vcn, fname):
 wsParam.set_params(appid, apiSecret, apiKey)
 wsParam.set_tts_params(text, vcn)
 websocket.enableTrace(False)
 wsUrl = wsParam.create_url()
 ws = websocket.WebSocketApp(wsUrl, on_message=on_message, on_error=on_error, on_close=on_close)
 ws.on_open = on_open
 ws.run_forever(sslopt={"cert_reqs": ssl.CERT_NONE})
 pcm2wav(PCM_PATH, fname)
def pcm2wav(fname, dstname):
 with open(fname, 'rb') as pcmfile:
 pcmdata = pcmfile.read()
 print(len(pcmdata))
 with wave.open(dstname, "wb") as wavfile:
 wavfile.setparams((1, 2, 16000, 0, 'NONE', 'NONE'))
 wavfile.writeframes(pcmdata)
wsParam = Ws_Param()
登录后复制

最终一个语音合成系统就这样实现了。

利用Python打造一个语音合成系统

当前,各种云计算、云服务迅速发展,各大公司提供了丰富的资源,大大降低了人工智能开发的门槛,不需要懂语音合成的原理,竟然可以快速开发出一个语音合成工具出来!

以上是利用Python打造一个语音合成系统的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

2小时的Python计划:一种现实的方法 2小时的Python计划:一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型,2.掌握控制流(条件语句和循环),3.理解函数的定义和使用,4.通过简单示例和代码片段快速上手Python编程。

Python:探索其主要应用程序 Python:探索其主要应用程序 Apr 10, 2025 am 09:41 AM

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中,Django和Flask框架简化了开发过程。2)数据科学和机器学习领域,NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面,Python适用于自动化测试和系统管理等任务。

Navicat查看MongoDB数据库密码的方法 Navicat查看MongoDB数据库密码的方法 Apr 08, 2025 pm 09:39 PM

直接通过 Navicat 查看 MongoDB 密码是不可能的,因为它以哈希值形式存储。取回丢失密码的方法:1. 重置密码;2. 检查配置文件(可能包含哈希值);3. 检查代码(可能硬编码密码)。

如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用 如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用 Apr 09, 2025 pm 03:09 PM

作为数据专业人员,您需要处理来自各种来源的大量数据。这可能会给数据管理和分析带来挑战。幸运的是,两项 AWS 服务可以提供帮助:AWS Glue 和 Amazon Athena。

redis怎么启动服务器 redis怎么启动服务器 Apr 10, 2025 pm 08:12 PM

启动 Redis 服务器的步骤包括:根据操作系统安装 Redis。通过 redis-server(Linux/macOS)或 redis-server.exe(Windows)启动 Redis 服务。使用 redis-cli ping(Linux/macOS)或 redis-cli.exe ping(Windows)命令检查服务状态。使用 Redis 客户端,如 redis-cli、Python 或 Node.js,访问服务器。

redis怎么读取队列 redis怎么读取队列 Apr 10, 2025 pm 10:12 PM

要从 Redis 读取队列,需要获取队列名称、使用 LPOP 命令读取元素,并处理空队列。具体步骤如下:获取队列名称:以 "queue:" 前缀命名,如 "queue:my-queue"。使用 LPOP 命令:从队列头部弹出元素并返回其值,如 LPOP queue:my-queue。处理空队列:如果队列为空,LPOP 返回 nil,可先检查队列是否存在再读取元素。

Redis如何查看服务器版本 Redis如何查看服务器版本 Apr 10, 2025 pm 01:27 PM

问题:如何查看 Redis 服务器版本?使用命令行工具 redis-cli --version 查看已连接服务器的版本。使用 INFO server 命令查看服务器内部版本,需解析返回信息。在集群环境下,检查每个节点的版本一致性,可使用脚本自动化检查。使用脚本自动化查看版本,例如用 Python 脚本连接并打印版本信息。

Navicat的密码安全性如何? Navicat的密码安全性如何? Apr 08, 2025 pm 09:24 PM

Navicat的密码安全性依赖于对称加密、密码强度和安全措施的结合。具体措施包括:采用SSL连接(前提是数据库服务器支持并正确配置证书)、定期更新Navicat、使用更安全的方式(如SSH隧道)、限制访问权限,最重要的是,绝不记录密码。

See all articles