[发明专利]轻量级语音关键词识别网络、方法、设备及存储介质有效

申请号：	202110228328.9	申请日：	2021-03-01
公开（公告）号：	CN112599123B	公开（公告）日：	2021-06-22
发明（设计）人：	殷绪成;张硕;杨春;陈峰	申请（专利权）人：	珠海亿智电子科技有限公司
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/08;G06N3/04
代理公司：	深圳青年人专利商标代理有限公司 44350	代理人：	吴桂华
地址：	519000 广东省珠海市高新区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	轻量级语音关键词识别网络方法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用于语音识别技术领域，提供了一种轻量级语音关键词识别网络、方法、设备及存储介质，该轻量级语音关键词识别网络包括依次连接的TDNN下采样层、SE Block、第一TDNN层、第二TDNN层、全局平均池化层和Softmax层，TDNN下采样层用于对输入的待检测音频的声学特征进行下采样处理，SE Block用于对输入的下采样特征通过进行挤压‑激活操作和重加权操作得到重加权特征，对重加权特征依次进行激活处理和归一化处理，并向第一TDNN层输出归一化处理后的特征，全局平均池化层用于对经两层TDNN层处理后输入的特征进行全局平均池化操作，从而通过TDNN和SE Block来构建轻量级语音关键词识别网络，减少了硬件资源损耗。

技术领域

本发明属于语音识别技术领域，尤其涉及一种轻量级语音关键词识别网络、方法、设备及存储介质。

背景技术

语音关键词识别(Keyword Spotting,KWS)是一项旨在检测音频流中预定义的关键词的任务。近年来，随着关键词识别技术的兴起，唤醒词检测技术越来越流行，它通常用于启动和语音助手的交互(例如“Hey Siri”，“Alexa”和“Okay Google”)或者区分简单的常见命令(例如“yes”或“no”)。由于这类任务通常是通过在低资源设备上通过连续监听特定的关键词来运行，因此实现高精度，低延迟，占用空间小的KWS系统仍然具有挑战性。

KWS的一种常见方法是大词汇量连续语音识别(Large Vocabulary ContinuousSpeech Recognition,LVCSR),它占用大量内存并具有高延迟，因此通常用于大型数据库的关键字搜索，另一种方法是基于关键词和填充词的隐马尔可夫模型(Keyword/filterHidden Marko Model,HMM)和高斯混合模型(Gaussian mixture models,GMMs),HMM首先建立一张包含关键词和填充词的特殊解码图，然后用Viterbi解码器判断其最优路径，输出概率最高的结果，因此需要很高的计算成本，很难应用于设备上的应用程序。近年来，基于深度神经网络(Deep Neural Network,DNN)的方法比传统方法在内存方面有了显著的改进，DeepKWS(G.Chen,C.Parada,and G.Heigold,“Small-footprint keyword spotting usingdeep neural networks,”in 2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,pp.4087–4091.)将关键词识别看作分类问题，并训练DNN直接预测关键词的子词单元，与基于HMM的方法相比，该方法具有占用空间小，计算成本低等优点。由于DNN不考虑语音的局部时间序列和频谱相关性，所以Sainath和Parada(T.N.Sainath and C.Parada,“Convolutional neural networks forsmall-footprint keyword spotting,”in Sixteenth Annual Conference of theInternational Speech Communication Association,2015.)提出用卷积神经网络(Convolutional Neural Network,CNN)来代替DNN，在内存占用更小的同时取得了更好的性能。然而CNN的感受野的大小通常是有限的，不能很好地捕捉语音的时间相关性。为了克服这一问题，Tang和Lin(R.Tang and J.Lin,“Deep residual learning for small-footprint keyword spotting,”in 2018IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP).IEEE,2018,pp.5484–5488.)提出了一种基于残差网络(Residual Network,ResNet)的KWS系统，在该系统中，他们使用膨胀卷积来随着网络的深度成倍的扩大感受野的大小。但是，基于ResNet的方法仍需要数十万个参数才能实现最先进的性能。为了进一步减小内存占用，最近的一些研究将时延神经网络(Time Delay Neural Network,TDNN)(M.Sun,D.Snyder,Y.Gao,V.K.Nagaraja,M.Rodehorst,S.Panchapagesan,N.Strom,S.Matsoukas,and S.Vitaladevuni,“Compressed time delay neural network for small-footprint keyword spotting.”in INTERSPEECH,2017,pp.3607–3611.),注意力机制(C.Shan,J.Zhang,Y.Wang,andL.Xie,“Attention-based end-to-end models for small-footprint keywordspotting,”Proc.Interspeech 2018,pp.2037–2041,2018.)和时间卷积神经网络(Temporal Convolutional Network,TCN)(S.Choi,S.Seo,B.Shin,H.Byun,M.Kersner,B.Kim,D.Kim,and S.Ha,“Temporal convolution for real-time keyword spotting onmobile devices,”Proc.Interspeech2019,pp.3372–3376,2019.)应用到KWS中，在(Y.Zhang,N.Suda,L.Lai,andV.Chandra,“Helloedge:Keywordspottingonmicrocontrollers,”arXiv preprint arXiv:1711.07128,2017.)中，Zhang等人将最初设计用于图像分类的MobileNet应用于KWS，其中MobileNet通过深度可分离卷积结构减少了参数数量和计算成本。然而，如果该方法在卷积运算之后使用大量的ReLU激活函数，则可能会损坏模型的表达能力，而且，该方法在跨层传递梯度时效率不高。总而言之，尽管已经提出了许多新的体系结构，但是他们仍需要大量的参数，这不能完全满足现代低资源设备上运行的要求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠海亿智电子科技有限公司，未经珠海亿智电子科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110228328.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]轻量级语音关键词识别网络、方法、设备及存储介质有效

专利文献下载