[发明专利]基于匹配模型二次识别的语音识别方法及系统在审
申请号: | 201710342320.9 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107146615A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 赵兆;何云亚;许志勇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/20;G10L15/14;G10L15/08;G10L15/06;G10L25/30;G10L17/26 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 吴茂杰 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 匹配 模型 二次 识别 语音 方法 系统 | ||
1.一种基于匹配模型二次识别的语音识别方法,其特征在于,包括如下步骤:
(10)语音处理:对用户输入的语音进行预处理及特征提取;
(20)语音识别:识别解析用户的语音信息,提取并保存用户性别和环境噪声信息;
(30)用户评价:接收用户对第一次识别结果的反馈信息,如第一次识别结果不符合期望,则继续进行二次识别,发出二次识别请求;
(40)匹配模型识别:在二次识别请求下,根据用户性别和环境噪声情况,匹配一个最优的语音识别模型,重新识别并输出解析结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,识别解析用户的语音信息步骤包括:
(211)提取用户输入语音的梅尔域倒谱系数作为声学特征;
(212)将输入语音的特征向量输入到已经在训练样本集上训练完成的声学模型中,解码得到输入语音的音素成分。
(213)用户输入语音的音素组成信息被输入到解码器中,解码器综合训练集的发音词典以及语言模型,给用户输入语音一个最优词序列作为最终的识别解析结果。
3.根据权利要求1所述的语音识别方法,其特征在于,所述(20)语音识别步骤中,用户性别提取步骤包括:
(221)模型训练:采用最大似然准则在足量的数据样本上训练高斯混合模型;
(222)语音特征提取:提取用户输入语音的语音特征,其总体变量空间在UBM上的超级矢量M表示如下,
M=m+Tx+e
其中,M是特定输入语句的超级矢量,m是样本数据的均值超级矢量,x是符合正态分布的低维随机矢量,T是描述总体变化的矩阵,e是由噪声或其他非相关因素产生的残差,GMM为高斯混合模型,UBM为统一背景模型;
在已知UBM-GMM模型的参数为Ω时,i-vector可以由上式得到,从而解决如下问题:
(223)根据样本数据的Baum-Welch统计量γk(i)和Γy,k(i),公式如下:
可以得到i-vector的提取公式:
(224)特征向量估计:根据i-vector的提取公式,可以利用EM算法来估计实际特征向量。
(225)用户性别分析:将提取得到的用户i-vector特征用线性投影分析(LDA)方法投影在由500名男性500名女性构成的散布平面上,由此分析出用户性别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710342320.9/1.html,转载请声明来源钻瓜专利网。