[发明专利]词声学特征系统、词声学特征系统的训练方法及系统有效

申请号：	202110594227.3	申请日：	2021-05-28
公开（公告）号：	CN113112995B	公开（公告）日：	2022-08-05
发明（设计）人：	俞凯;沈飞宇;杜晨鹏	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L25/24;G10L13/10;G10L13/02;G10L15/14
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;车江华
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声学特征系统训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种词声学特征系统的训练方法。该方法包括：将词声学特征系统输出的词声学特征，与音素编码器输出的音素特征序列拼接，得到带有词声学特征的音素特征序列，与实际韵律特征拼接，得到带有韵律与词声学特征的音素特征序列；调节编码长度，加入音高与能量特征后，进行解码，得到预测梅尔频谱；基于实际梅尔频谱与预测梅尔频谱对词声学特征系统进行训练。本发明实施例还提供一种词声学特征系统以及一种词声学特征系统的训练系统。本发明实施例利用训练的词声学特征系统得到不但具有词义，而且还具有发音的词声学特征，并且通过对词声学特征系统不断的训练，使词声学特征更加准确，从而在语音合成时进一步提升语音合成的质量。

技术领域

本发明涉及智能语音领域，尤其涉及一种词声学特征系统、词声学特征系统的训练方法及系统。

背景技术

具有序列到序列体系结构的端到端文本到语音合成模型在生成自然语音方面取得了巨大的成功。通过文本分析或者从预训练模型中抽取词的向量表征，通过词向量编码器之后与音素特征序列(音素编码器的输出)进行对齐与拼接来特征词特征。获取这些特征向量的方式包括：

通过统计的方法获得词特征，如词频等，再利用文本分析的方法生成词特征向量；

从常见的机器学习任务(如翻译任务)中抽取编码器输出作为词向量；

利用BERT编码层抽取词向量；

利用GloVe模型中抽取词向量。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

这些模型或者文本分析方法关注词的词义而非词的发音，仅将音素用作输入令牌，而忽略有关音素来自哪个单词的信息。且在训练过程中词向量固定不变。因此这些表征词意的特征向量对提高合成质量效果较差。

发明内容

为了至少解决现有方法中已有模型仅关注词的词义，忽略词的发音，使得特征向量对提高语音的合成质量效果较差的问题。