[发明专利]文本的语音合成方法、装置和计算机设备有效
申请号: | 201910042827.1 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109754778B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/24 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 冯晓平 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语音 合成 方法 装置 计算机 设备 | ||
本申请实施例提供一种文本的语音合成方法、装置和计算机设备,其中,上述文本的语音合成方法包括首先获取待识别的目标文本;然后将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量;其次将所述特征向量输入预先训练的频谱转换模型,获取上述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;最后再将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音。这样,本申请在进行语音合成的时候,无需对文本中的每个字符进行拼音标注,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案,在人工智能领域中具有更广泛的应用范围。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本的语音合成方法、装置和计算机设备。
背景技术
由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器像人一样说话,使一些以其他方式表示或存储的信息能转换为语音,从而人们可以通过听觉方便地获得这些信息。
现有相关技术中,为解决语音合成技术中的多音字发音问题,大多采用基于规则的方法或者基于统计机器学习的方法,但是,基于规则的方法需要人工设定大量的规则,基于统计机器学习的方法容易受到样本不均匀分布的限制。不仅如此,上述基于规则的方法和基于统计机器学习的方法均需要对训练文本进行大量的语音标注,这无疑大大增加了工作量。
发明内容
本申请实施例提供一种文本的语音合成方法、装置和计算机设备,通过预先训练的频谱转换模型,可以获取待识别文本中每个字符对应的梅尔频谱,并将梅尔频谱转换为语音,据此可以获得目标文本对应的语音,有效地减少了语音合成过程中的工作量,并为语音合成过程中的发音问题提供了有效的解决方案。
第一方面,本申请实施例提供了一种文本的语音合成方法,包括:
获取待识别的目标文本;
将所述目标文本中的每个字符进行离散型特征处理,以生成每个字符对应的特征向量;
将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱;
将所述梅尔频谱转换为语音,以获得所述目标文本对应的语音。
其中在一种可能的实现方式中,所述将所述特征向量输入预先训练的频谱转换模型,获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前,还包括:
获取预设数量的训练文本和所述训练文本对应的配对语音;
对所述训练文本进行离散型特征处理,以获得所述训练文本中的每个字符对应的特征向量;
将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱;以及,
当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时,获得训练好的频谱转换模型。
其中在一种可能的实现方式中,所述将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型,获得所述待训练的频谱转换模型输出的梅尔频谱包括:
通过所述待训练的频谱转换模型,对所述训练文本进行编码,获得与所述训练文本对应的隐藏状态序列,所述隐藏状态序列包括至少两个隐节点;
根据每个字符对应的隐节点的权值,分别对所述隐节点进行加权计算,获得所述训练样本中的每个字符对应的语义向量;
对每个字符对应的语义向量进行解码,并输出每个字符对应的梅尔频谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910042827.1/2.html,转载请声明来源钻瓜专利网。