[发明专利]基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法有效
申请号: | 201910621276.4 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110164418B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 韩纪庆;薛嘉宾;郑铁然;郑贵滨 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22;G10L25/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 网格 短时记忆 递归 神经网络 自动 语音 识别 加速 方法 | ||
基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,属于语音信号处理技术领域。本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。本发明的方法针对频谱或者频谱的多通道频谱子带进行时频块切分,然后进行局部特征提取,将卷积神经网络与Grid‑LSTM相结合,弥补了Grid‑LSTM在大频域步长情况下的精度损失。主要用于自动语音识别。
技术领域
本发明涉及一种自动语音识别加速方法。属于语音信号处理技术领域。
背景技术
长短时记忆(Long Short-Term Memory,LSTM)递归神经网络是自动语音识别任务中最常使用的模型。
近年来,随着LSTM的不断发展,出现了一类增强版本的LSTM,即二维LSTM(TwoDimension LongShort-TermMemory,2D-LSTM)。在这类LSTM中,最具代表性的是网格长短时(GridLongShort-TermMemory,Grid-LSTM)递归网络,其在频域和时域分别使用独立的LSTM进行序列建模。网格长短时记忆递归神经网络已成为自动语音识别(AutomaticSpeech Recognition,ASR)系统的重要组成部分。然而,由于Grid-LSTM在时域和频域分别使用两个独立的长短时记忆(LongShort-TermMemory,LSTM)递归网络对序列依赖关系进行建模,因此,Grid-LSTM在训练和推理过程中存在计算时间较长和计算量巨大的问题,即:由于Grid-LSTM使用两个独立的LSTM针对输入频谱进行滤波操作,因此会导致巨大的计算代价。进一步,由于其自身的网格限制,使得模型无法并行运算。
在实际使用过程中,系统对于模型的实时推理能力要求较高,因此Grid-LSTM往往无法有效应用在实际任务中。目前的加速方法大多是在牺牲识别性能的条件下进行加速,并不能满足实际任务的需要。
发明内容
本发明是为了解决目前的加速方法大多是在牺牲识别性能的条件下进行加速导致其不能满足实际任务的需要问题。
基于卷积网格长短时记忆递归神经网络的自动语音识别加速方法,包括以下步骤:
步骤1、时频块切分:
针对频谱X或者输入频谱X的多通道频谱子带X′进行时频块切分:
使用频率方向长度F,时间方向长度T的滑动窗,按照频域轴步长frestrip,时间轴步长timestrip,将频谱X或其多通道频谱子带X′切分为一系列时频块集合Xblock=[x′1,1,x′2,1,...,x′t,k,...];x′t,k为一个时频块,t表示时域,k表示频域;
步骤2、局部特征提取:
首先,针对x′t,k进行卷积运算,提取当前时频块的局部频域特征
Ft,k=x′t,k*WF
其中,WF为卷积核的第F个子卷积核矩阵;
然后,针对Ft,k进行池化,Pt,k为池化后的Ft,k;
将Pt,k归一化到指定维度
xt,k=Pt,k×WL+b,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910621276.4/2.html,转载请声明来源钻瓜专利网。