[发明专利]一种基于多任务学习的端到端声源定位方法及系统有效
申请号: | 201910043338.8 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109782231B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 曲天书;吴玺宏;黄炎坤 | 申请(专利权)人: | 北京大学 |
主分类号: | G01S5/22 | 分类号: | G01S5/22 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 端到端 声源 定位 方法 系统 | ||
本发明公开了一种基于多任务学习的端到端声源定位方法及系统。本方法为:1)对于待扫描的每个声源位置,计算声音信号从该声源位置传输到各麦克风位置的延时;2)根据时延对该麦克风阵列每次扫描时各麦克风所采集的多通道帧级别的时域信号进行相应延时补偿;3)将每一延时补偿后的时域信号输入到一对应的CNN模型进行特征提取并输入到一深度神经网络;4)该深度神经网络根据各CNN模型提取的特征估计出每一扫描位置的多通道声源信号;5)对于每一扫描位置,计算该扫描位置对应的多通道声源信号的互相关系数和,选取相关系数和最大的位置作为声源位置。本发明能够自行提取合适的特征,并引入多任务学习机制,提高模型的定位性能。
技术领域
本发明属于阵列信号处理技术领域,涉及麦克风阵列和声源定位方法,具体涉及一种基于多任务学习的端到端的声源定位方法及系统。
背景技术
随着人工智能技术的发展,机器听觉受到了大家的广泛关注,许多与机器听觉相关的技术与研究领域相继出现。声源定位技术是机器听觉系统中一项基础又重要的技术,其本质是模仿人双耳的功能,通过麦克风阵列对声音信号进行采集,进而对发声物体的位置进行判断。声源定位技术可以独立应用于很多领域,如视频会议、鸣笛车辆识别等,同时也可以为很多技术提供了基础性的位置信息,如语音增强等。因此,我们通过优化提高声源定位算法的定位准确性,能将其应用到很多领域,并在一定程度上能够推动其他技术的发展,为其他技术提供有力地支持。
根据定位原理,声源定位技术大致可分为以下五类:基于到达时间差估计、基于高分辨率谱估计、基于可控波束形成、基于传递函数以及基于神经网络的方法。
基于到达时间差估计的方法是先通过估计声音信号到达不同麦克风之间的时间差,再根据到达时间差和阵列的空间几何关系来推断出声源位置。该方法把定位过程分为两个步骤,会出现误差传递的问题,即到达时间差估计不准确,误差会传递到第二步骤。而且到达时间差很难准确地估计,定位准确率不高。
基于高分辨率谱估计的方法有多重信号分类(MUSIC),最小方差谱估计(MVM)等等。该类方法是通过对麦克风阵列采集的信号构成协方差矩阵,利用EVD进行特征分解,从而得到与信号分量相对应的信号子空间及与噪声分量相对应的噪声子空间,利用这两个子空间估计目标方位。该方法具有较高的空间分辨率,但在有混响的情况下性能较差。因为混响情况下的噪声具有方向性,且与信号是同源,因此具有较强的相关性。此时仍通过特征分解来确定声源位置很容易误判。
基于可控波束形成的方法是一种基于扫描的方法,它对所有可能的声源位置进行逐一扫描。针对每一个扫描位置来说,通过对麦克风阵列采集到的信号进行延时补偿形成波束,并计算形成波束的输出功率,选择输出功率最大对应的位置作为估计的声源位置,典型的算法有基于相位变换加权的可控响应功率(SRP-PHAT)。该方法只考虑了到达时间差的信息,没有利用幅度差的信息,在高混响和低信噪比的情况下很容易受到噪声影响。
基于传递函数的方法也是一种扫描的方法,它是通过实测声音信号从每个声源位置到每个麦克风的传输特性,即传递函数。通过对麦克风阵列采集的信号进行逆滤波操作恢复出多通道的源信号,即恢复其时间差和强度差,进而通过对多通道的源信号进行相关性的检测,选取相关性最大对应的位置作为声源位置。该方法综合利用了到达时间差和强度差的定位信息,但是该方法需要实测传递函数,在无法实测的场景下则无法使用。此外,在低信噪比和高混响的环境下,几乎不可能测得准确的传递函数,测得的传递函数鲁棒性较差,定位性能不佳。而且,实测获得的传递函数对环境强相关,很难迁移到并适用于其他环境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910043338.8/2.html,转载请声明来源钻瓜专利网。