[发明专利]一种引入语言向量的语音识别增强方法和装置在审

专利信息
申请号: 201910954478.0 申请日: 2019-10-09
公开(公告)号: CN110648654A 公开(公告)日: 2020-01-03
发明(设计)人: 武亚光;黄秀彬;杨维;张莉;牛逸明;朱克;申蕾;曾玲丽;刘娟;李承桓;郝景昌;吴传真 申请(专利权)人: 国家电网有限公司客户服务中心
主分类号: G10L15/00 分类号: G10L15/00;G10L15/04;G10L15/06;G10L15/08;G10L15/16;G10L15/26
代理公司: 11368 北京世誉鑫诚专利代理事务所(普通合伙) 代理人: 孙国栋
地址: 300300 天*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种语音识别方法和装置,特别公开了一种引入语言向量的语音识别增强方法和装置。该一种引入语言向量的语音识别增强方法和装置,本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音。其益效果是:提高了母语发音和非母语发音的混合语音识别系统识别率,提高语音识别训练效率,降低了参数量,减速了模型训练,并同时提高了语音识别的效率。
搜索关键词: 向量 语音识别 语言 方法和装置 发音 语音识别系统 类别标记 训练模块 分帧 母语 语音 语音识别模块 语音识别引擎 混合语音 模型训练 神经网络 识别系统 向量获取 向量训练 训练数据 训练效率 识别率 引入 隐层 减速 分类
【主权项】:
1.一种引入语言向量的语音识别增强方法和装置,其特征在于:本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成;本装置需要预先对训练数据分帧进行发音类别标记,通过神经网络进行分类训练,获取的隐层向量作为语言向量,然后将获取的语言向量加入语音识别系统训练模块中,获取语音识别引擎,通过不同的语言向量来识别不同语言的语音;/n具体工作模块与工作流程如下:/n语音分帧模块,本模块主要将整段的语音进行切分一帧帧语音,现成一个序列,用s表示s={s1,s2,….,sN},其中s表示一段语音,s1表示一帧语音,N为总帧数;/n类别标记模块,本模块主要将语音分帧模块的切分的语音帧进行标记,现成待标记的语音片段,用l表示,l_s表示对语音端s进行标记,l_s={l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记,L_s_n的值为语言的类别,如语言类别为英式英语和中式英语,则l_s_n的值为其中一个;/n语言向量训练模块,本模块主要是利用神经网络模型进行语言向量进行训练;/n其具体流程如下:/n输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,考虑到上下文关系,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;/n网络结构:本方案中采用的DNN是2层隐层,其中前一层有1200个结点,激活函数为f(x)=x,只做线性映射;后一层20个结点,激活函数为sigmoid函数,最后一层为类别的个数ClassNum;/n训练:由于在类别标记模块中对语音帧进行了标注,即可按照分类模型的训练方法进行训练;/n基于以上流程,即可获取语言向量生成引擎。/n语言向量获取模块,在语言向量训练模块中已经训练得到了语言向量生成模型,本模块即时从此模型中获取语言向量;/n具体流程如下:/n输入向量:语音特征选择的是Fbank特征以及它们的一二阶差分,共40维,输入加入了当前帧前后各5帧近邻帧,总共11帧440维;/n获取语言向量,获取网络模型倒数第二层的隐层,作为语言向量;/n语音识别系统训练模块,在获取了语言向量后,即可进行语音识别引擎训练,/n具体流程如下:/n输入向量:输入向量分为语音特征向量和语言向量,语音特征向量为40维的Fbank特征,考虑到上下文相关,使用11帧的对称窗口,并做LDA降维至200维,语言向量即为104模块中获取的向量;/n网络结构:4层隐含层,每层1200个结点,输出层对应GMM的个数,为7552个结点;/n模型训练:交叉熵作为训练的评判标准,训练中采用随机梯度下降法;/n语音识别模块,在语音识别系统训练模块中训练获得声学模型,本模块将声学模型和语音结合后,即可获取语音识别引擎,即可进行语音识别,语音识别过程为通用流程。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司客户服务中心,未经国家电网有限公司客户服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910954478.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top