[发明专利]基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法有效

申请号：	201910621276.4	申请日：	2019-07-10
公开（公告）号：	CN110164418B	公开（公告）日：	2021-08-27
发明（设计）人：	韩纪庆;薛嘉宾;郑铁然;郑贵滨	申请（专利权）人：	哈尔滨工业大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/22;G10L25/30
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法，属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分，然后进行局部特征提取，将卷积神经网络与Grid‑LSTM相结合，弥补了Grid‑LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。
搜索关键词：	基于卷积网格短时记忆递归神经网络自动语音识别加速方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法，其特征在于，包括以下步骤：步骤1、时频块切分：针对频谱X或者输入频谱X的多通道频谱子带X′进行时频块切分：使用频率方向长度F，时间方向长度T的滑动窗，按照频域轴步长fre_strip，时间轴步长time_strip，将频谱X或其多通道频谱子带X′切分为一系列时频块集合X_block＝[x′_1，1，x′_2，1，...，x′_t，k，...]；x′_t，k为一个时频块，t表示时域，k表示频域；步骤2、局部特征提取：首先，针对x′_t，k进行卷积运算，提取当前时频块的局部频域特征F_t，k＝x′_t，k*W_F其中，W_F为卷积核的第F个子卷积核矩阵；然后，针对F_t，k进行池化，P_t，k为池化后的F_t，k；将P_t，k归一化到指定维度x_t，k＝P_t，k×W_L+b，x_t，k为归一化到指定维度后的P_t，k，W_L为权值矩阵，b为归一化到指定维度操作对应的偏置量；步骤3、全局时频模式建模：针对步骤2中得到的局部特征x_t，k进行全局时频模式建模：分别在频域和时域使用两个独立的LSTM进行建模，具体流程如下：其中，s∈(t，k)，角标t，k表示时域、频域对应的参数；u∈(i，f，c，o)，角标i，f，c，o分别表示输入、遗忘、记忆单元和输出对应的参数；分别表示在时频步长t，k处的输入、遗忘、记忆单元和输出的激活门；表示对应的偏置；是Grid‑LSTM层的输出；为对应的权值矩阵，角标ix表示输入x_*到i门对应的参数，fx表示输入x_*到f门对应的参数，cx表示输入x_*到c门对应的参数，ox表示输入x_*到o门对应的参数，角标um表示输出m到u门对应的参数；⊙表示元素级别的点乘；σ是一个逻辑sigmoid激活函数，g(·)和h(·)是单元输入和输出的激活函数tanh。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910621276.4/，转载请声明来源钻瓜专利网。

上一篇：一种语种向量获得、语种识别的方法和相关装置
下一篇：一种老师与高中生之间单向语音系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法有效

专利文献下载