[发明专利]一种快速响应的神经语音合成系统及其方法有效

申请号：	202010357186.1	申请日：	2020-04-29
公开（公告）号：	CN111613204B	公开（公告）日：	2023-04-18
发明（设计）人：	石强	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L13/08;G10L21/0208;G10L25/78;G10L25/93
代理公司：	北京冠和权律师事务所 11399	代理人：	安琪
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速响应神经语音合成系统及其方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种快速响应的神经语音合成系统及其方法，包括：声学模型网络构建模块：用于构建声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；声学模型训练模块：用于预设标准语音参数，并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差；合成模块：用于通过所述输入层接收语音的输入文本，根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块；其中，将所述一个低精度语音块通过第一输出层输出，将所述多个高精度语音块通过第二输出层输出。

技术领域

本发明涉及语音处理技术领域，特别涉及一种快速响应的神经语音合成系统及其方法。

背景技术

目前，现在技术中基于LSTM的语音合成系统，通常采用流式处理的方式来成块的返回语音，即按照语音从前到后的顺序，每次仅返回固定长度的语音。一般把系统从接收文本到第一次返回语音块所用的时间叫做首帧返回时间，这个时间表示用户在输入文本后，在获取到语音前需要等待的时间，也就是合成系统的响应速度。但是，由于第一个语音块计算方式与随后的语音块是相同的，所以在计算量上是一致的，这就导致在计算性能较差的设备上首帧返回时间会很长，降低用户体验，成为系统工程指标的瓶颈。

发明内容

本发明提供一种快速响应的神经语音合成系统，用以解决在计算性能较差的设备上，由于首帧返回时间会很长，降低了用户体验的情况。

一种快速响应的神经语音合成系统，其特征在于，包括：

声学模型网络构建模块：用于构建声学模型，其中，所述声学模型包括第一输出层、第二输出层、隐藏层和输入层；

声学模型训练模块：用于预设标准语音参数，并根据预设的损失函数确定所述声学模型输出的语音参数与所述标准语音参数的声学误差；

合成模块：用于通过所述输入层接收语音的输入文本，根据所述声学误差和流式合成方式通过所述隐藏层将所述语音的输入文本合成为一个低精度语音块和多个高精度语音块；其中，

将所述一个低精度语音块通过第一输出层输出，将所述多个高精度语音块通过第二输出层输出。

作为本发明的一种实施例：所述隐藏层为N个，N为大于1的正整数；其中，

所述N个隐藏层中，第一个隐藏层用于合成所述低精度语音块；

第N个隐藏层用于合成所述高精度语音块。

作为本发明的一种实施例：所述合成模块包括：

特征获取单元：用于获取所述语音的输入文本，并确定所述语音的文本特征；根据所述文本特征确定所述语音的时间信息，通过所述时间信息和文本特征合成声学特征；