[发明专利]协同双通道时频掩码估计任务学习的双耳声源定位方法及系统在审
申请号: | 202011096916.3 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112731291A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 丁润伟;吴璐璐;杨冰;刘宏 | 申请(专利权)人: | 深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究生院 |
主分类号: | G01S5/22 | 分类号: | G01S5/22;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 协同 双通道 掩码 估计 任务 学习 声源 定位 方法 系统 | ||
本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。
技术领域
本发明属于音频信号处理和计算机听觉技术领域,具体涉及一种适用于在存在噪声、混响、多声源环境下的双耳麦克风声源定位方法及系统,通过卷积神经网络学习双通道信号的空间信息,同时估计双通道时频掩码,能够增强双耳信号和双耳定位特征,并且将双通道时频掩码增强后的定位特征作为定位模型的输入,能够协同双通道时频掩码估计任务学习端到端的声源定位模型。
背景技术
在人类日常生活的交互中,人们感知外界信息的主要方式有视觉、听觉、触觉、嗅觉和味觉等等。其中,人类通过视觉来获取的信息约占70%-80%,通过听觉获取的信息约占10%-20%。听觉感知是人们与外界进行信息交流的最自然、方便、直接有效的方式之一。相对于视觉、触觉等,听觉具有全向性和衍射性,能够不受方位和物理结构(如墙壁)的限制,可以在被障碍物遮蔽的情况下依然有效地接收声音信号。机器人听觉系统包括声源信号的定位与跟踪、声源分离与分类、说话人识别、语音识别、语音情感识别等功能。机器人听觉声源定位指的是利用搭载在机器人系统上的麦克风设备定位出声源相对于麦克风设备的位置,包括水平角、俯仰角和距离。作为语音信号处理的基础前端任务,机器人听觉声源定位可以为其他语音信号处理任务提供空间辅助信息。利用少量的麦克风估计声源的位置是实现实用机器人听觉系统的一个重要目标,声源定位技术在人机交互、语音分离、语音增强、会议系统中有着广泛的应用。随着智能科学技术的发展,人们对机器人智能化程度的要求不断提高,具有多模态感官的智能机器人逐渐成为学术界和工业界研究的热点。听觉系统作为智能机器人系统的重要组成部分,已成为人工智能领域的重要研究课题之一。然而,针对机器人听觉系统的声源定位研究较少,现如今仍然存在着许多研究难点,如声学环境的复杂性,强噪声和强混响的声学环境,多声源干扰等等。因此,声源定位技术在智能机器人领域具有重要的应用价值和研究意义。为了提升双耳声源定位在噪声、混响和多声源环境下的性能,学者们提出了许多双耳声源定位的方法。
根据麦克风数量以及是否具有机器人工头的耳廓结构,声源定位技术可以粗略地分为基于麦克风阵列的声源定位和基于双耳麦克风的声源定位。麦克风阵列可以搭载在机器人身上,也可以分散在环境中各个角落。常见的麦克风阵列类别有:立方体麦克风阵列、线性麦克风阵列、柱形麦克风阵列等等。双耳麦克风则搭载在人工头或机器人头部的耳廓结构中。基于双耳麦克风的声源定位充分利用了仿真的人耳听觉特性,即由头部阴影效应和耳廓的衍射及散射效应带来的声谱特性。由于人工头的前后对称性,人工头的前后声源容易造成混淆,而耳廓的存在为区分声源前后向提供了有利条件。
双耳声源定位一般包括提取双耳定位特征和在线定位两个阶段。传统的定位特征包括双耳时间差、双耳能量差,它们分别表示声源到达双耳麦克风时的时间差异和能量差异。在线定位方法主要有模板匹配、高斯混合模型、深度神经网络等等。为了提升双耳定位特征在噪声和混响环境下的鲁棒性,也有研究提出使用时频掩码选择可靠的时频单元,并在这些单元内计算双耳定位特征。实际上,经过语音信号处理之后,双耳声源定位任务是一个模式识别问题,现有的双耳声源定位系统包括以下步骤:
1、利用麦克风接收信号,对麦克风信号进行预滤波。双耳声源定位中常用Gammatone滤波器对麦克风信号进行滤波,Gammatone滤波器组是一种标准的耳蜗听觉滤波器组,各个滤波器的带宽从低频到高频由窄变宽。Gammatone滤波器组只需要较少的参数就能很好地模拟人耳听觉系统的生理数据,并且充分体现基底膜尖锐的滤波特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究生院,未经深港产学研基地(北京大学香港科技大学深圳研修院);北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011096916.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带全息投影地势扫描功能的杆塔监测装置
- 下一篇:显示设备