[发明专利]一种自适应语音合成方法及装置有效

申请号：	202010167018.6	申请日：	2020-03-11
公开（公告）号：	CN111429878B	公开（公告）日：	2023-05-26
发明（设计）人：	贺来朋	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/047
代理公司：	北京冠和权律师事务所 11399	代理人：	张楠楠
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自适应语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自适应语音合成方法及装置，包括：利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练；利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低的问题，提高了用户的体验感。

技术领域

本发明涉及语音合成技术领域，尤其涉及一种自适应语音合成方法及装置。

背景技术

近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值，现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练，然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练，所述提出了自适应语音合成系统，即利用目标发音人少量的录音和文本数据快速构建合成系统，产生目标发音人音色的合成语音。但是这种方法存在以下缺点：由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低，影响了用户的体验感。

发明内容

针对上述所显示出来的问题，本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练，最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。

一种自适应语音合成方法，包括以下步骤：

利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；

设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；

利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；

利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。

优选的，所述设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，包括：

预先建立空白录音文本库；

获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库；

接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，所述第一录音文本为所述录音文本中任一录音文本；

确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本；