[发明专利]语音唤醒方法和装置在审
申请号: | 202011630785.2 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112767952A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 薛少飞 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/18;G10L17/04;G10L17/02 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 装置 | ||
本发明公开语音唤醒方法和装置,其中,一种语音唤醒方法,包括:将原始音频输入至使用sinc函数来构造带通滤波器,其中,所述滤波器形成特殊卷积层,所述滤波器的参数为最高截止频率和最低截止频率;将经过所述滤波器处理后的音频依次经过多重处理并最终输入到第一DNN层,其中,所述第一DNN层与记忆块连接,所述记忆块种存储有从当前时刻往前N帧至往后M帧的数据;将所述记忆块种存储的数据与所述第一DNN层的输出数据求和之后经过第一激活函数处理后作为第二DNN层的输入,其中,所述第二DNN层的数量和所述记忆块的数量为大于等于1的自然数;以及将最后一个第二DNN层输出的数据经过第二激活函数的处理得到最终输出后验得分。
技术领域
本发明属于网络模型技术领域,尤其涉及语音唤醒方法和装置。
背景技术
相关技术中,目前市面上主要有基于深度神经网络的语音唤醒模型,如CNN(Convolutional neural networks,卷积神经网络)模型、FSMN(Feedforward SequentialMemory Networks,前馈序列记忆神经网络)模型等。
目前基于深度神经网络的低功耗语音唤醒模型主要有CNN、FSMN、RNN(RecurrentNeural Networks,循环神经网络)等。现对CNN及FSMN进行简单的介绍。
CNN模型是一种常见的网络结构,在语音识别、图像识别、图像分割等领域有着广泛的应用。一个典型的CNN网络一般由卷积(convolution)、池化(pooling)和激活(activation)三种结构构成,而网络中的参数一般由反向传播(back propagation)的方法得到。
FSMN是一种改进的DNN网络,在某一个DNN层中加入了记忆模块(Memory block),使得模型对不同时间的输入拥有“记忆”功能,该模型在处理时间序列的数据(如语音信号)时有不错的效果。一个典型的FSMN模型结构如图1所示,其中,Input layer表示输入层,hidden layer表示隐藏层,Memory Block表示记忆块,Output layer表示输出层。
发明人认为,对于CNN来说,主要缺点有以下两点:
a)计算量大:语音唤醒模型一般用于低功耗的移动端(如耳机、平板)或高功耗的家用电器(如电视、空调)中,这些设备都对模型的大小和算力有着严格的要求。过大的计算量会使芯片发热,影响设备寿命,而某些芯片则无法运行大计算量的模型。
b)对时间序列缺乏“记忆”:CNN由于结构的限制,对于之前的输入缺乏“记忆”功能,当前的输出仅和当前的输入有关,这在语音信号的处理中是一大劣势,因为当前的语音常常和之前的语音紧密相关。
对于FSMN来说,主要缺点在于无法对原始语音信号直接进行处理。
发明人认为,对于CNN来说:计算量大主要是由于CNN网络中必须进行卷积操作,以一条长度为L的语音信号为例,若卷积核长度为a,步长为1,在对语音信号进行padding后,需分别进行a*L次乘法和L*(a-1)加法,而这样的卷积层通常不止一个,所以产生了非常大的计算量。
而对时间序列缺乏“记忆”主要是由于CNN网络对时间序列缺乏“记忆”是由它的网络结构决定的。一方面,对于卷积层来说,卷积只对卷积核覆盖到的区域进行计算,因此卷积核外的语音信息不会对当前卷积核内语音信息的处理产生影响;另一方面,尽管由于全连接层的存在,各卷积核之间的信息仍会相互影响,但这种影响仅限于网络输入的总时长(通常为30ms)以内,无法在较长的时间尺度上进行信息传递。实践证明,CNN网络对时间序列的处理缺乏有效的“记忆”功能,而对历史信息的“记忆”在时间序列,特别是语音信号的处理中有着重要的作用。
对于FSMN来说,如果直接用原始语音信号作为模型输入进行训练,效果会很差。FSMN模型缺乏直接从原始音频数据中学习有用信息的能力,因此通常在使用FSMN模型之前需对原始音频进行特征提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011630785.2/2.html,转载请声明来源钻瓜专利网。