[发明专利]基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法有效
申请号: | 201910621276.4 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110164418B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 韩纪庆;薛嘉宾;郑铁然;郑贵滨 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L25/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid‑LSTM相结合,弥补了Grid‑LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。 | ||
搜索关键词: | 基于 卷积 网格 短时记忆 递归 神经网络 自动 语音 识别 加速 方法 | ||
【主权项】:
1.基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,其特征在于,包括以下步骤:步骤1、时频块切分:针对频谱X或者输入频谱X的多通道频谱子带X′进行时频块切分:使用频率方向长度F,时间方向长度T的滑动窗,按照频域轴步长frestrip,时间轴步长timestrip,将频谱X或其多通道频谱子带X′切分为一系列时频块集合Xblock=[x′1,1,x′2,1,...,x′t,k,...];x′t,k为一个时频块,t表示时域,k表示频域;步骤2、局部特征提取:首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征Ft,k=x′t,k*WF其中,WF为卷积核的第F个子卷积核矩阵;然后,针对Ft,k进行池化,Pt,k为池化后的Ft,k;将Pt,k归一化到指定维度xt,k=Pt,k×WL+b,xt,k为归一化到指定维度后的Pt,k,WL为权值矩阵,b为归一化到指定维度操作对应的偏置量;步骤3、全局时频模式建模:针对步骤2中得到的局部特征xt,k进行全局时频模式建模:分别在频域和时域使用两个独立的LSTM进行建模,具体流程如下:![]()
![]()
![]()
![]()
![]()
![]()
其中,s∈(t,k),角标t,k表示时域、频域对应的参数;u∈(i,f,c,o),角标i,f,c,o分别表示输入、遗忘、记忆单元和输出对应的参数;
分别表示在时频步长t,k处的输入、遗忘、记忆单元和输出的激活门;
表示对应的偏置;
是Grid‑LSTM层的输出;
为对应的权值矩阵,角标ix表示输入x*到i门对应的参数,fx表示输入x*到f门对应的参数,cx表示输入x*到c门对应的参数,ox表示输入x*到o门对应的参数,角标um表示输出m到u门对应的参数;⊙表示元素级别的点乘;σ是一个逻辑sigmoid激活函数,g(·)和h(·)是单元输入和输出的激活函数tanh。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910621276.4/,转载请声明来源钻瓜专利网。