[发明专利]基于注意力机制和双路径深度残差网络的声场景分类方法有效
申请号: | 202010585359.5 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111754988B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 唐闺臣;梁瑞宇;谢跃;黄裕磊;王青云 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/18;G10L25/24;G10L25/27;G10L25/45;G10L25/51 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 路径 深度 网络 声场 分类 方法 | ||
1.一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,包括如下步骤:
步骤1、对原始语音信号进行预处理并计算原始语音频谱图,对原始语音频谱图中的水平线和垂直线分别进行增强得到水平频谱图和垂直频谱图,对水平频谱图和垂直频谱图分别变换得到新的两路时域信号;
步骤2、分别计算原始语音信号、新的两路时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图,并在通道维度上进行融合得到融合谱图;
步骤3、在频率轴上将融合谱图平均分割为高频谱图和低频谱图;
步骤4、搭建带有注意力层的双路径深度残差网络;
步骤5、将所述步骤3中的高频谱图和低频谱图输入步骤4中的深度残差网络,输出原始语音信号所属的声场景类别。
2.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤1中:
其中,Xh为水平频谱图,Xp为垂直频谱图,X为原始语音频谱图;κ和λ为权重平滑因子;f和t分别表示频率和时间;最小化代价函数J,令和则可求得水平频谱图Xh和垂直频谱图Xp。
3.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤2中:
Sa(T,F)=(SX(T,F),SH(T,F),SP(T,F))
其中,Sa表示融合谱图;SX表示原始语音信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;SH表示由水平频谱图生成的时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;SP表示由垂直频谱图生成的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;T和F分别表示时间轴和频率轴。
4.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤5包括如下步骤:
步骤51、高频谱图和低频谱图输入深度残差网络的双路径后分别输出高频特征图和低频特征图;
步骤52、高频特征图和低频特征图在频率轴维度上进行融合得到融合特征图,通过融合特征图得到多通道特征图,通过多通道特征图计算得到注意力系数;
步骤53、将注意力系数应用于多通道特征图得到加权特征图;
步骤54、将加权特征图展开为一维的特征向量,通过特征向量输出原始语音信号所属的声场景类别。
5.根据权利要求4所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤52中:
MP(T,F)=(MP1(T,FL),MP2(T,FH))
其中,MP(T,F)表示融合特征图;MP1(T,FL)和MP2(T,FH)分别表示低频特征图和高频特征图;T表示特征图的高度;F、FL和FH分别表示融合特征图、低频特征图和高频特征图的宽度。
6.根据权利要求4所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤52中:
α=σ(W2ReLU(W1z))
其中,α∈RC表示注意力系数向量;和表示权重;σ表示sigmoid激活函数;M表示多通道特征图;T和F分别表示多通道特征图的高度和宽度;C表多通道特征图的通道维度;r表示尺度缩放系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010585359.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种豆制品加工用黄豆筛选装置
- 下一篇:一种树脂手办加工工艺