[发明专利]一种自适应语音合成方法及装置有效
申请号: | 202010167018.6 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111429878B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 贺来朋 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 语音 合成 方法 装置 | ||
本发明公开了一种自适应语音合成方法及装置,包括:利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练;利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低的问题,提高了用户的体验感。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种自适应语音合成方法及装置。
背景技术
近年来,随着语音技术的日趋成熟,语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理系统中。在社会与商业领域,合成音作为一种声音的展现,给社会生活带来便利与丰富性,具有潜在广阔的使用价值,现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练,然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练,所述提出了自适应语音合成系统,即利用目标发音人少量的录音和文本数据快速构建合成系统,产生目标发音人音色的合成语音。但是这种方法存在以下缺点:由于训练所需数据量较少且质量通常不高,以及模型预测精度不够等原因,导致合成的语音质量和精度都偏低,影响了用户的体验感。
发明内容
针对上述所显示出来的问题,本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练,最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。
一种自适应语音合成方法,包括以下步骤:
利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练,得到训练后的预设神经网络模型;
设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音;
利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练;
利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数,将所述静态语音参数输入到合成器中获得合成语音。
优选的,所述设计录音文本库以供用户挑选目标录音文本进行录音,得到当前录音,包括:
预先建立空白录音文本库;
获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库;
接收到用户请求录音的指令时,推送M个第一录音文本以供选择,其中,所述第一录音文本为所述录音文本中任一录音文本;
确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本;
基于所述目标录音文本,接收用户的当前录音。
优选的,在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前,所述方法还包括:
获取所述当前录音中的每一句语音;
去除所述每一句语音中超过预设时长的静音段;
对所述每一句语音作去噪和去混响的预处理;
检测预处理之后的当前语音是否完整;
若是,则使用所述目标录音文本对应的标注;
否则,提醒用户所述预处理之后的当前语音不满足需求。
优选的,所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练,包括:
提取所述预处理之后的当前语音的声学特征参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167018.6/2.html,转载请声明来源钻瓜专利网。