[发明专利]一种基于LSTM的电声门图语音转换方法有效
申请号: | 201911065541.1 | 申请日: | 2019-11-04 |
公开(公告)号: | CN110808026B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 陈立江;王龙;张井合 | 申请(专利权)人: | 金华航大北斗应用技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/27;G10L25/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 胡智勇 |
地址: | 321000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 声门 语音 转换 方法 | ||
1.一种基于LSTM的电声门图语音转换方法,其方法步骤在于,
A:对电声门图提取特征并拼接;
B:对转换语音和标准语音的相似度进行设计;
C:对音素预测模型进行训练;
D:使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预
测并以此合成语音。
2.根据权利要求1所述的一种基于LSTM的电声门图语音转换方法,其特征在于: 步骤A对电声门图特征进行提取和拼接,是将电声门图以20ms为长度分帧,提取每帧的包括但不限于基频、单位时间能量、频率微扰、振幅微扰特征,并将每十个相邻帧提取的特征进行拼接,将电声门图转化为特征序列。
3.根据权利要求2所述的一种基于LSTM的电声门图语音转换方法,其特征在于:步骤B对转换语音和标准语音的相似度进行设计,是将标准语音转化为标准汉语普通话音素序列,使用交叉熵计算与预测模型输出序列的相似度。
4.根据权利要求1-3任一所述的一种基于LSTM的电声门图语音转换方法,其特征在于:步骤C对音素预测模型进行训练,是以LSTM网络作为预测模型,训练模型输入为电声门图特征序列,模型输出为音素预测序列,训练标签为标准音素序列,使用交叉熵作为损失函数对预测模型进行训练。
5.根据权利要求4的一种基于LSTM的电声门图语音转换方法,其特征在于:步骤D使用训练好的模型由电声门图转换而得的特征序列对当前音素进行预测并以此合成语音,是先将电声门图转换为特征序列输入预测模型,模型输出预测音素,从预先存储着汉语32种基本音素及相应的合成参数的字典中取出该音素对应的参数,配置Klatt共振峰语音合成模型,实现电声门图到语音的转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金华航大北斗应用技术有限公司,未经金华航大北斗应用技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911065541.1/1.html,转载请声明来源钻瓜专利网。