[发明专利]一种声学模型的数据处理方法在审

申请号：	201810702540.2	申请日：	2018-06-30
公开（公告）号：	CN108630199A	公开（公告）日：	2018-10-09
发明（设计）人：	屈丹;龙星延;张文林;张连海;陈琦;闫红刚;杨绪魁;牛铜;李真	申请（专利权）人：	中国人民解放军战略支援部队信息工程大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/02
代理公司：	郑州大通专利商标代理有限公司 41111	代理人：	陈勇
地址：	450000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种声学模型的数据处理方法。该声学模型包括编码网络、注意力网络和解码网络，数据处理方法包括：步骤1、编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT)，xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征，hT表示所述语音特征xT在T时刻的高层特征；步骤2、注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量，目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩；步骤3、解码网络根据高层特征序列(h1,h2,...,hT)和目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO)，yO表示待识别语音经解码网络输出后在位置o上所有音素的后验概率。本发明能够减少参数训练规模，提升训练速度以及提升音素和语音特征对齐的准确度。
搜索关键词：	高层特征声学模型语音特征数据处理音素编码网络后验概率解码网络目标向量语音注意力预处理语音特征提取语音特征序列准确度网络参数训练概率序列计算目标对齐向量输出压缩
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种声学模型的数据处理方法，其特征在于，所述声学模型包括：编码网络、注意力网络和解码网络，所述数据处理方法包括：步骤1、所述编码网络对语音特征序列(x1,x2,...,xT)进行编码得到高层特征序列(h1,h2,...,hT)，xT表示待识别语音经过语音特征提取预处理后在T时刻的语音特征，hT表示所述语音特征xT在T时刻的高层特征；步骤2、所述注意力网络根据高层特征序列(h1,h2,...,hT)计算目标向量，所述目标向量用于对所述高层特征序列(h1,h2,...,hT)进行压缩；步骤3、所述解码网络根据所述高层特征序列(h1,h2,...,hT)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y1,y2,...,yO)，yO表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率；其中，所述编码网络包括前向网络和后向网络，所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学，未经中国人民解放军战略支援部队信息工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810702540.2/，转载请声明来源钻瓜专利网。

上一篇：用于训练声学模型的方法和设备
下一篇：声音关键字检测装置以及声音关键字检测方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种声学模型的数据处理方法在审

专利文献下载