[发明专利]词声学特征系统、词声学特征系统的训练方法及系统有效
申请号: | 202110594227.3 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113112995B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 俞凯;沈飞宇;杜晨鹏 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24;G10L13/10;G10L13/02;G10L15/14 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声学 特征 系统 训练 方法 | ||
本发明实施例提供一种词声学特征系统的训练方法。该方法包括:将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,与实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;调节编码长度,加入音高与能量特征后,进行解码,得到预测梅尔频谱;基于实际梅尔频谱与预测梅尔频谱对词声学特征系统进行训练。本发明实施例还提供一种词声学特征系统以及一种词声学特征系统的训练系统。本发明实施例利用训练的词声学特征系统得到不但具有词义,而且还具有发音的词声学特征,并且通过对词声学特征系统不断的训练,使词声学特征更加准确,从而在语音合成时进一步提升语音合成的质量。
技术领域
本发明涉及智能语音领域,尤其涉及一种词声学特征系统、词声学特征系统的训练方法及系统。
背景技术
具有序列到序列体系结构的端到端文本到语音合成模型在生成自然语音方面取得了巨大的成功。通过文本分析或者从预训练模型中抽取词的向量表征,通过词向量编码器之后与音素特征序列(音素编码器的输出)进行对齐与拼接来特征词特征。获取这些特征向量的方式包括:
通过统计的方法获得词特征,如词频等,再利用文本分析的方法生成词特征向量;
从常见的机器学习任务(如翻译任务)中抽取编码器输出作为词向量;
利用BERT编码层抽取词向量;
利用GloVe模型中抽取词向量。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
这些模型或者文本分析方法关注词的词义而非词的发音,仅将音素用作输入令牌,而忽略有关音素来自哪个单词的信息。且在训练过程中词向量固定不变。因此这些表征词意的特征向量对提高合成质量效果较差。
发明内容
为了至少解决现有方法中已有模型仅关注词的词义,忽略词的发音,使得特征向量对提高语音的合成质量效果较差的问题。
第一方面,本发明实施例提供一种词声学特征系统,包括:
词编码器,用于接收词序列和位置编码,输出词特征;
词音素对齐器,用于利用音素序列中各音素对应的词,对所述词特征对齐处理,输出与所述音素序列长度对应的词特征,以供所述词特征与所述音素特征拼接,得到词声学特征。
第二方面,本发明另一实施例提供一种词声学特征系统的训练方法,包括:
将词声学特征系统输出的词声学特征,与音素编码器输出的音素特征序列拼接,得到带有词声学特征的音素特征序列,将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接,得到带有韵律与词声学特征的音素特征序列;
调节所述带有韵律与词声学特征的音素特征序列的编码长度,加入从所述实际梅尔频谱中提取的音高与能量特征后,进行解码,得到预测梅尔频谱;
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。
第三方面,本发明另一实施例提供一种语音合成方法,包括:
将待合成文本的词序列输入至词声学特征系统,得到所述待合成文本的词声学特征,将所述词声学特征与音素编码器的输出进行拼接,得到带有词声学特征的音素特征序列;
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征,将所述词声学特征与所述预测韵律特征拼接,得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列;
调节所述预测音素特征序列的编码长度,加入从所述预测音素特征序列中预测的音高与能量特征后进行解码,得到预测梅尔频谱,基于所述预测梅尔频谱生成语音音频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594227.3/2.html,转载请声明来源钻瓜专利网。