[发明专利]一种快速响应的神经语音合成系统及其方法有效
申请号: | 202010357186.1 | 申请日: | 2020-04-29 |
公开(公告)号: | CN111613204B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 石强 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L21/0208;G10L25/78;G10L25/93 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 响应 神经 语音 合成 系统 及其 方法 | ||
1.一种快速响应的神经语音合成系统,其特征在于,包括:
声学模型网络构建模块:用于构建声学模型,其中,所述声学模型包括第一输出层、第二输出层、隐藏层和输入层;
声学模型训练模块:用于预设标准语音参数,并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差;
合成模块:用于通过所述输入层接收语音的输入文本,根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块;其中,
将所述一个低精度语音块通过第一输出层输出,将所述多个高精度语音块通过第二输出层输出;
所述合成模块还包括噪音处理模块,用于去除所述语音中的语言噪音;其中,
所述噪音处理模块处理噪音包括以下噪音特征获取步骤:
步骤1:获取噪音能量;
其中,P表示第t帧所述语音的语言噪音能量,t表示第t帧,且t=1,2,3……t;y(t)表示第t帧所述语音的语言噪音参数傅里叶变换后的值;
步骤2:获取说话速率;
通过音素个数和每个音素的帧数获取语音语速参数;
其中,所述W表示所述语音的语速参数;所述S表示所述语音的音素个数;所述Y表示所述语音的包含的帧数;
步骤3:根据所述说话速率和所述噪音能量通过精度矩阵判断噪音特征;
其中,所述Et表示第t帧所述语音的语言噪音特征;所述Lt表示第t帧所述语音的精度矩阵权重。
2.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述隐藏层为N个,N为大于1的正整数;其中,
所述N个隐藏层中,第一个隐藏层用于合成所述低精度语音块;
第N个隐藏层用于合成所述高精度语音块。
3.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述合成模块包括:
特征获取单元:用于获取所述语音的输入文本,并确定所述语音的文本特征;根据所述文本特征确定所述语音的时间信息,通过所述时间信息和文本特征合成声学特征;
流式排序单元:用于根据所述时间信息,将所述声学特征按照时间顺序分块得到一个低精度语音块和多个高精度语音块;其中,
所述低精度语音块通过第一输出层输出,所述多个高精度语音块通过第二输出层输出。
4.根据权利要求1所述的一种快速响应的神经语音合成系统,其特征在于,所述声学模型训练模块包括:
多任务学习单元:用于将所述语音的输入文本以多任务学习的方式训练所述语音;
误差确定单元:用于根据LOSS计算公式构建所述第一输出层、所述第二输出层和所述标准语音参数之间的损失函数;其中,
所述损失函数的值用于确定所述第一输出层和第二输出层输出的语音块与真实语音参数之间的误差。
5.根据权利要求4所述的一种快速响应的神经语音合成系统,其特征在于,所述误差确定单元构建所述损失函数包括以下步骤:
获取所述第一输出层的输出结果、所述第二输出层的输出结果和所述标准语音参数;
设所述第一输出层的输出结果为y1、所述第二输出层的输出结果为y2和所述标准语音参数
构建LOSS计算公式确定误差,如下:
LOSS=αLOSS1+βLOSSi;
其中,所述α和β表示叠加权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010357186.1/1.html,转载请声明来源钻瓜专利网。