[发明专利]词声学特征系统、词声学特征系统的训练方法及系统有效
申请号: | 202110594227.3 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113112995B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 俞凯;沈飞宇;杜晨鹏 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24;G10L13/10;G10L13/02;G10L15/14 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 特征 系统 训练 方法 | ||
1.一种词声学特征系统,包括:
词编码器,用于接收词序列和位置编码,输出词特征;
词音素对齐器,用于利用音素序列中各音素对应的词,对所述词特征对齐处理,输出与所述音素序列长度对应的词特征,以供所述词特征与所述音素特征拼接,得到词声学特征。
2.一种词声学特征系统的训练方法,包括:
将权利要求1所述的词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
3.根据权利要求2所述的方法,其中,所述调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱包括:
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征,得到预测音素特征序列;
将所述预测音素特征序列输入至梅尔频谱解码器,得到预测梅尔频谱。
4.一种语音合成方法,包括:
将待合成文本的词序列输入至权利要求1所述的词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
5.根据权利要求4所述的方法,其中,在将待合成文本的词序列输入至词声学特征系统之前,所述方法还包括:对所述词序列进行文本归一化。
6.一种词声学特征系统的训练系统,包括:
音素特征序列确定程序模块,用于将权利要求1所述的词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
梅尔频谱预测程序模块,用于调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
训练程序模块,用于基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
7.根据权利要求6所述的系统,其中,所述梅尔频谱预测程序模块用于:
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征,得到预测音素特征序列;
将所述预测音素特征序列输入至梅尔频谱解码器,得到预测梅尔频谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594227.3/1.html,转载请声明来源钻瓜专利网。