[发明专利]基于注意力机制和双路径深度残差网络的声场景分类方法有效
申请号: | 202010585359.5 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111754988B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 唐闺臣;梁瑞宇;谢跃;黄裕磊;王青云 | 申请(专利权)人: | 南京工程学院 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L25/18;G10L25/24;G10L25/27;G10L25/45;G10L25/51 |
代理公司: | 南京睿之博知识产权代理有限公司 32296 | 代理人: | 刘菊兰 |
地址: | 211167 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于注意力机制和双路径深度残差网络的声场景分类方法,包括如下步骤:对原始语音信号计算原始语音频谱图、水平频谱图和垂直频谱图,将水平频谱图和垂直频谱图变换得到新的两路时域信号;分别计算原始语音信号、新的两路时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图,并在通道维度上进行融合得到融合谱图;割在频率轴上将融合谱图平均分为高频谱图和低频谱图;搭建带有注意力层的双路径深度残差网络;将高频谱图和低频谱图输入深度残差网络,输出原始语音信号所属的声场景类别。本发明可以更好的捕获高频和低频分量的时频特性以及特征图中不同通道的重要度,提升了声场景分类系统的准确性和鲁棒性。 | ||
搜索关键词: | 基于 注意力 机制 路径 深度 网络 声场 分类 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工程学院,未经南京工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010585359.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种豆制品加工用黄豆筛选装置
- 下一篇:一种树脂手办加工工艺