[发明专利]一种声源定位方法及装置有效
申请号: | 202010256529.5 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111596261B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 李庆龙;关海欣 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G01S5/18 | 分类号: | G01S5/18 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声源 定位 方法 装置 | ||
本发明公开了一种声源定位方法及装置,所述方法包括:获取待估计的多通道语音;获取目标降噪模型及目标DOA估计模型;基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位。通过本发明的技术方案,能够准确的进行声源定位。
技术领域
本发明涉及定位技术领域,特别涉及一种声源定位方法及装置。
背景技术
声源定位(DOA)是麦克风阵列中的一项重要技术。其作用是在嘈杂环境下判断出目标说话人与麦克风阵列的相对方向。为后续波束形成操作提供重要且准确的信息。
传统的DOA估计方法在信噪比较高的环境中估计准确率比较理想,但在低信噪比环境下、非平稳噪声下的效果不理想。当前基于深度学习的DOA估计方法能有效提高低信噪比环境下的估计准确率,但在多人同时讲话的噪声下的估计性能依旧有待改善。目前多人同时讲话的识别方法是将多通道的语音同时送入模型,得到该时刻语音的DOA估计值,但该方法对噪声的鲁棒性需要改进,且在babble等噪声下的估计效果依旧不理想,总的来说,现有技术对带有噪音的多通道语音声源定位不准确。
发明内容
本发明提供一种声源定位方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种声源定位方法,包括:
获取待估计的多通道语音;
获取目标降噪模型及目标DOA估计模型;
基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向。
在一个实施例中,所述获取目标降噪模型,包括:
获取原始降噪模型;
获取若干条第一单通道带噪语音;
对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
在一个实施例中,所述获取目标DOA估计模型,包括:
获取作为训练数据的多通道带噪语音;
将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
在一个实施例中,所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型,包括:
获取原始DOA估计模型;
确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向。
对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010256529.5/2.html,转载请声明来源钻瓜专利网。