[发明专利]基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备有效

申请号：	202110619344.0	申请日：	2021-06-03
公开（公告）号：	CN113362854B	公开（公告）日：	2022-11-15
发明（设计）人：	韩纪庆;关亚东;薛嘉宾;郑贵滨;郑铁然	申请（专利权）人：	哈尔滨工业大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/18;G10L25/30
代理公司：	哈尔滨华夏松花江知识产权代理有限公司 23213	代理人：	岳昕
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于稀疏注意力机制声学事件检测方法系统存储介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于稀疏自注意力机制的声学事件检测方法，包括以下步骤：

首先对输入音频信号提取梅尔声谱图，然后分别输入到卷积神经网络提取局部特征，并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征；最后输入到全连接层进行分类，并对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间；

其特征在于，所述提取时域特征的过程包括以下步骤：

将提取的局部特征H_i输入到一个单层的Transformer Encoder模型中，采用稀疏归一化方法对注意力权重归一化；对得到的注意力权重矩阵的归一化操作包括以下步骤：

2.1、A的第t列为A_t，对A_t中的元素进行降序排列；A为自注意力层中的注意力权重矩阵；

2.2、寻找满足以下条件的中间参数k_t；

k_t∈max{k∈[T]|1+kA_t,k＞∑_j≤kA_t,j}

其中T表示时间维度的大小，[T]＝{1,2...T}，A_t,k、A_t,j分别为向量A_t中的第k个和第j个元素；

2.3、求阈值τ_t

2.4、对于A_t中的每个元素j，求：

A′_t,j＝[A_t,j-τ_t]₊

其中，[·]₊表示[·]₊＝max{0,·}；

2.5、返回步骤2.1，直到t＝T，得到归一化的注意力权重矩阵A′。

2.根据权利要求1所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，所述的自注意力层中的注意力权重矩阵：

其中分别为self-attention中的Query和Key矩阵，d_k为特征维度大小。

3.根据权利要求2所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的，所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。

4.根据权利要求3所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，所述的用于提取局部特征的卷积神经网络由七个卷积模块组成，所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128；最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)；

每个卷积模块中的卷积层为二维卷积层，卷积核大小为(3,3)，步长为(1,1)。

5.根据权利要求4所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，最后输入到全连接层进行分类的过程包括以下步骤：

利用全连接层对特征进行分类，其中隐藏层参数为128，激活函数采用Sigmoid激活函数。

6.根据权利要求1至5之一所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤：

利用中值滤波对输出概率进行平滑，得到声学事件的预测概率当大于0.5表示第t时刻发生了第c类声学事件，反之表示第c类事件未发生；进而得到每一时刻声音事件是否发生的信息，继而可得声音事件的发生与结束时间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110619344.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于稀疏自注意力机制的声学事件检测方法、系统、存储介质及设备有效

专利文献下载