[发明专利]一种基于LSTM的独立说话人语音发音逆求解的方法有效

申请号：	201811179314.7	申请日：	2018-10-10
公开（公告）号：	CN109346107B	公开（公告）日：	2022-09-30
发明（设计）人：	覃晓逸;张东;李明	申请（专利权）人：	中山大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L15/06;G10L25/30;G10L17/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及试验系统及其方法，更具体地涉及一种基于LSTM的独立说话人语音发音逆求解的方法，具体步骤如下：（1）首先对指定4个人音频信号以及同步的轨迹信号进行采集，通过安放传感器对上唇(Upper lip，UL)、下唇(Lower lip，LL)、下齿龈(Lower incisor，LI)、舌尖(Tongue tip，TP)、舌中(Tongue body，TB)，舌根(Tongue dorsum，TD)六个点的数据进行采集；（2）在步骤（1）之后，选定鼻梁(RF)为参考点，在参考点处也放置传感器进行数据的采集。本发明第一：预测了未在训练集中出现说话人的语音发音轨迹；第二：改变输入特征，选取了效果更好、更合适的的声学特征作为网络输入，提升了RMSE和相关系数；第三：克服了轨迹采集时不连续、不平滑的特性。
搜索关键词：	一种基于 lstm 独立说话人语发音求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于LSTM的独立说话人语音发音逆求解的方法，其特征在于，具体步骤如下：(1)首先对指定4个人音频信号以及同步的轨迹信号进行采集，通过安放传感器对上唇(Upper lip，UL)、下唇(Lower lip，LL)、下齿龈(Lower incisor，LI)、舌尖(Tongue tip，TP)、舌中(Tongue body，TB)，舌根(Tongue dorsum，TD)六个点的数据进行采集；(2)在步骤(1)之后，选定鼻梁(RF)为参考点，在参考点处也放置传感器进行数据的采集；(3)在步骤(2)之后，选定其中三个记为A、B、C作为训练人，D作为测试人；(4)将训练人的语音信号进行特征提取，提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)以及音素后验概率(phoneme posterior probabilities，PPP)；并且将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)以及音素后验概率(phoneme posterior probabilities，PPP)作为联合输入特征(tandem)，输入到长短期记忆网络(Long Short‑Term Memory，LSTM)网络中；获取MFCC步骤中Mel滤波的公式为，(5)选定训练好的模型，将D的联合输入特征(tandem)作为输入，发音轨迹作为输出；对轨迹与采集到的轨迹计算RMSE和相关系数r进行数据推测，并与参考数据对比；RMSE和相关系数r是衡量系统的两个指标；RMSE越小，误差越小，r越大，预测的轨迹与真实值的轨迹趋势越接近；公式如下：其中ei是网络预测的输出，ti是在i时间的真实值；其中e’是预测值的均值，t’是实际值的均值；语音音频和语音轨迹同步数据是利用NDI公司的WAVE系统采集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811179314.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于子带信噪比加权的倒谱域基音周期估计方法
下一篇：一种作业检查方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LSTM的独立说话人语音发音逆求解的方法有效

专利文献下载