[发明专利]基于组合卷积神经网络的声音事件检测与定位方法在审
申请号: | 202211268616.8 | 申请日: | 2022-10-17 |
公开(公告)号: | CN115631771A | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 郭敏;闫乐安;马苗 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/24;G10L25/30 |
代理公司: | 西安永生专利代理有限责任公司 61201 | 代理人: | 申忠才 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 卷积 神经网络 声音 事件 检测 定位 方法 | ||
一种基于组合卷积神经网络的声音事件检测与定位方法,由数据集预处理、提取特征、构建组合卷积神经网络、训练组合卷积神经网络、测试组合卷积神经网络、检测和定位声音事件步骤组成。本发明采用了双分支卷积神经网络与线性密集连接混合神经网络,条件参数化卷积神经网络根据输入信号动态计算卷积核,将卷积核参数化为n个卷积核的线性组合,提升了网络的学习能力和计算效率;采用了线性密集连接混合神经网络,关注声音中重要的信息而忽略不相关的声音信息,增加了网络的感受野,提升了声音事件检测与定位的准确率。本发明具有识别准确率高、网络稳定、提取特征信息完整等优点,可用于声音事件检测与定位。
技术领域
本发明属于语音信号处理及人工智能技术领域,具体地涉及到对声音信号的检测和定位。
背景技术
声音事件检测与定位是识别每个声音事件的时间活动,估计它们各自的空间位置轨迹,进一步与各自的声音事件标签相关联,是声音事件检测和到达方向估计的组合任务,声音事件检测与定位在机器人、智能城市、智能家庭和工业、智能会议、生物多样性监测等多个技术领域有广泛的应用,具有十分广阔的应用前景和重要的研究价值。
早期的声音事件检测与定位是分别处理检测和定位这两个问题,而没有将源位置和声音事件联系起来。检测通常使用高斯混合模型、隐马尔可夫模型或支持向量机等方法。而定位通常使用基于高分辨率谱估计的方法、基于时延估计的方法和基于可控波束形成的方法。
随着深度学习技术的快速发展,越来越多基于深度神经网络模型方法使声音事件检测与定位的性能得到了很大提升。深度神经网络用于声音事件检测取得了较好的效果,显示了声音事件检测与定位联合建模的能力。现在大部分的结构都采用卷积神经网络和循环神经网络结合的方法,但是使用卷积循环神经网络提取的特征信息比较单一且通常忽略重要的声音特征信息,无法进一步提高声音事件检测与定位的准确率。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种语音情感识别准确、识别率高、网络稳定性好的基于组合卷积神经网络的声音事件检测与定位方法。
解决上述技术问题所采用的技术方案步骤如下:
(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集。
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):
其中,Gx1x2(f)表示x1、x2两路信号的功率谱,表示相位变换加权函数,τ表示时间延迟。
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成。
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连。
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成。
(4)训练组合卷积神经网络
1)确定目标函数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211268616.8/2.html,转载请声明来源钻瓜专利网。