[发明专利]一种基于深度学习的多声源测向方法及系统在审
申请号: | 201910661146.3 | 申请日: | 2019-07-22 |
公开(公告)号: | CN112257484A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 徐及;黄兆琼;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06F17/14 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;王宇杨 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 声源 测向 方法 系统 | ||
1.一种基于深度学习的多声源测向方法,所述方法包括:
将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;
将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;
从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位。
2.根据权利要求1所述的基于深度学习的多声源测向方法,其特征在于,所述将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;具体为:
将阵列接收的信号y(t)做傅里叶变换,将每个频率上的傅里叶变换系数的实部虚部串联向量X:
Y(fi)=fft(y(t)),
其中,所述阵列包括K个麦克风;Y(fi)为频率fi上的傅里叶变换系数;i为频率索引,F为傅里叶变换的点数;real(Y(fi))为Y(fi)的实部,imag(Y(fi))为Y(fi)的虚部;Y(fi)=[Y1(fi),Y2(fi),…,YL(fi)],L是快拍数。
3.根据权利要求2所述的基于深度学习的多声源测向方法,其特征在于,所述将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;具体为:
将向量X输入深度神经网络,所述深度神经网络的训练准则函数γ为:
其中,Γf,p=H(θp,fi)[HH(θp,fi)H(θp,fi)]HH(θp,fi),定义导向矢量θp为第p个声源的波达方向,1≤p≤P;P为声源的个数;τk为第k个麦克风和第一个麦克风之间的时间延迟;1≤k≤K;Γf,pYl(fi)是一个K×1维的观察向量投影到导向矢量H(θp,fi)的空间上;
当训练准则最小化时,深度神经网络收敛。
4.根据权利要求3所述的基于深度学习的多声源测向方法,其特征在于,所述声源的波达方向为:θp=pΔθ,角度间隔
5.根据权利要求3或4所述的基于深度学习的多声源测向方法,其特征在于,所述从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位,具体为:
当深度神经网络收敛后,其输出向量为:z=[z1,z2,…,zP]T,zp∈[0,1],为第p个声源出现的后验概率;
从z1,z2,…,zP抽取后验概率中的多个极大值;
计算门限值δ:
δ=Oavg+μ(Omax-Oavg),
其中,Oavg和Omax代表了后验概率的平均值和最大值,μ为参数;
对于大于门限δ的极大值,其对应的方位为声源可能出现的方位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661146.3/1.html,转载请声明来源钻瓜专利网。