[发明专利]音素时长预测建模方法及音素时长预测方法有效
申请号: | 201611027187.X | 申请日: | 2016-11-18 |
公开(公告)号: | CN106601226B | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 陶建华;郑艺斌;温正棋;李雅 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。 | ||
搜索关键词: | 音素 预测 建模 方法 | ||
【主权项】:
一种音素时长预测建模方法,其特征在于,包括以下步骤:步骤A1,获取音素时长数据集;步骤A2,对音素时长数据集中的音素时长数据进行筛选,得到音素时长训练数据集;步骤A3,依据音素时长训练数据集训练基于音向量的文本特征重表示模型M1;利用训练好的模型M1生成基于音向量的文本特征重表示;步骤A4,依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2;利用训练好的模型M2生成基于组合决策树的文本特征重表示;步骤A5,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;步骤A6,基于音向量和组合决策树相结合的文本特征重表示,训练双向长短时记忆循环神经网络的音素时长预测模型M3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611027187.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于磁流变效应实现吸声性能可调的装置
- 下一篇:音频采集方法和装置