[发明专利]基于说话人的语音合成方法、模型训练方法及相关设备在审
申请号: | 202011223486.7 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112349273A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 周明康;罗超;陈子浩;胡泓;李巍 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L19/00;G10L25/30;H04M3/493;G06F40/151;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 徐莉;钟宗 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 说话 语音 合成 方法 模型 训练 相关 设备 | ||
1.一种基于说话人的语音合成方法,其特征在于,包括:
获得待合成文本,将所述待合成文本转换成文本向量;
随机确定一说话人标识,对所述文本向量进行基于所述说话人标识的映射,获得特征向量;
根据所述特征向量,通过一声学模型获得声学特征;以及
根据所述声学特征,通过一声码器合成目标音频。
2.如权利要求1所述的语音合成方法,其特征在于,所述说话人标识自说话人库中随机确定;
所述声码器经训练,用于将所述说话人库中任一说话人标识对应的声学特征转换成具有所述说话人标识对应的说话人音色的目标音频。
3.如权利要求1所述的语音合成方法,其特征在于,所述对所述文本向量进行基于所述说话人标识的映射,包括:
将所述文本向量和所述说话人标识输入一嵌入层,获得包含所述文本向量对应的文本特征和所述说话人标识对应的说话人特征的特征向量。
4.如权利要求1所述的语音合成方法,其特征在于,所述声学模型包括编码器和解码器,所述编码器包括依次相连的多层卷积神经网络和多层双向长短期记忆网络,所述解码器包括依次相连的多层双向长短期记忆网络和一线性层,且所述编码器的最后层双向长短期记忆网络与所述解码器的第一层双向长短期记忆网络相连。
5.如权利要求4所述的语音合成方法,其特征在于,所述通过一声学模型获得声学特征,包括:
将所述特征向量输入所述声学模型,依次经所述编码器的多层所述卷积神经网络和多层所述双向长短期记忆网络、以及所述解码器的多层所述双向长短期记忆网络和所述线性层处理后,生成预设维度的声学特征。
6.如权利要求1所述的语音合成方法,其特征在于,所述将所述待合成文本转换成文本向量,包括:
对所述待合成文本进行正则化处理;
对正则化处理后的待合成文本进行分词,获得预设格式的分词文本;
将所述分词文本转换成包含音节信息和声调信息的拼音序列;以及
根据字典查找,将所述拼音序列转换成文本向量。
7.一种模型训练方法,其特征在于,包括:
获得对应不同说话人的样本文本及每个所述样本文本的真实声学特征和目标声学特征;
将所述样本文本转换成包含说话人特征的样本文本向量;
至少基于卷积神经网络和双向长短期记忆网络构建一声学模型;以及
以所述样本文本向量和所述真实声学特征为输入,以所述目标声学特征为输出,训练所述声学模型,至所述声学模型收敛。
8.如权利要求7所述的模型训练方法,其特征在于,所述至少基于卷积神经网络和双向长短期记忆网络构建一声学模型,包括:
构建包含编码器和解码器的网络结构;
于所述编码器中,构建依次相连的多层卷积神经网络和多层双向长短期记忆网络;
于所述解码器中,构建依次相连的卷积神经网络、多层双向长短期记忆网络和一线性层,且所述解码器的第一层双向长短期记忆网络的输入连接所述编码器的最后层双向长短期记忆网络的输出;
在所述网络结构中加入局部注意力机制,且每两层之间使用线性整流函数进行非线性激活,形成所述声学模型;
其中,所述编码器的第一层卷积神经网络用于输入所述样本文本向量,所述解码器的卷积神经网络用于输入所述真实声学特征,所述线性层用于输出所述目标声学特征。
9.一种基于说话人的语音合成装置,其特征在于,包括:
向量转换模块,配置为获得待合成文本,将所述待合成文本转换成文本向量;
说话人映射模块,配置为随机确定一说话人标识,对所述文本向量进行基于所述说话人标识的映射,获得特征向量;
声学预测模块,配置为根据所述特征向量,通过一声学模型获得声学特征;以及
语音合成模块,配置为根据所述声学特征,通过一声码器合成目标音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011223486.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:维护DDR5内存子系统的维护装置、方法、设备和存储介质
- 下一篇:一种光谱灯