[发明专利]基于分频和深度神经网络的声源定位方法在审
申请号: | 201810174588.0 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108647556A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 胡章芳;乐聪聪;谭术兵;徐渝松;陈飞雨 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声源定位 分频 神经网络 子带信号 混响 双耳 滤波器 互相关函数 互相关计算 定位特征 声源位置 双耳信号 噪声环境 最大概率 最小相位 反变换 方位角 水平差 顶层 谱域 声源 子带 语音 分解 输出 分类 概率 回归 | ||
本发明请求保护一种混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法,涉及声源定位领域。该方法首先双耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross‑Correlation Function,GCCF)。该方法将双耳语音定位视为一个多分类的问题,将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置。
技术领域
本发明属于声源定位领域,特别是一种基于分频和深度神经网络的声 源定位方法。
背景技术
声源定位技术的内容涉及了模式识别、信号处理、语言科学、计算机技术、 生理学、心理学、神经网络以及人工智能技术等多种学科,其应用领域非常广 泛,包括移动通信、移动机器人、视频会议、银行安全系统、海关、公共场所 监视、医学、人机交互等。例如,在军事方面,声源定位技术可以为雷达提供 一个很好的补充,不需要发射信号,仅靠接收信号就可以判断目标的位置,因 此,在定位的过程中就不会受到干扰和攻击。在视频会议中,说话人跟踪可为 摄像机转向控制与语音拾取提供位置信息,使传播的图像和声音更清晰。声源 定位技术因为其诸多优点以及在应用上的广泛前景成为一个研究热点。
伴随着科技地不断进步,研究者对于说话人的定位技术也不断地更新着, 主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。 经过几十年的发展与研究,如今的视频定位技术已经非常成熟,其可以在实现 目标的定位与跟踪等功能。然而声源定位技术却更能引起众多研究者的重视, 这主要由于声源定位技术有着独特的优势。
第一,隐蔽性。声源定位技术只需要利用麦克风来接收声音信号,而不必 向外界发送任何东西,这一点使得声源定位技术在不改变周围环境下能够轻松 得到外界目标声音的信息,而自己本身的位置却很难被外界所发现。正是声源 定位技术的隐蔽性,很多潜水艇在作战中不会轻易打开声呐等设备,而会使用 声源定位技术来追踪目标的位置。
第二,实用性。声音是属于声波,声波在传输中不会受到电磁场、光线强 弱等的干扰与限制。光线强度弱的环境对于视频定位技术影响很大,存在障碍 物的环境对电磁波有一定干扰。如在深海中由于光线很弱,视频定位技术就不 能使用,而激光与电磁波在深海中能量的衰减会快速导致穿透距离很短。然而 这种情况下声源定位技术却不会受限制于深海环境中,可以很好的实现目标声 源的定位。
第三,易实现。声源定位技术相比于其他几种定位技术,在成本上与设备 上的要求就低很多了,因此声源定位技术在生活中容易得到应用。
在现实生活中,人们的谈话场景通常存在多个声源、背景噪声以及混响, 但是人耳听觉系统能够有效地识别和定位出感兴趣的声源信号,这种现象被称 为“鸡尾酒效应”。这种现象经常出现在鸡尾酒会上,两个客人可以在说话的一 群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的 方向,比如听者在听到有人叫唤他的名字时会将头转向说话者。由此可以看出, 人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。声源定位技 术起源于人们对于人耳听觉特性的研究,因此它通过模拟人耳听觉系统实现对 声源方向的定位功能。声源定位的广适性使其应用于多个领域,在声学通信、 人工智能和助听器等方面有着重要的研究意义和实用价值。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在混响和噪声环境下提 高声源定位的准确度的基于分频和深度神经网络的声源定位方法。本发明 的技术方案如下:
一种基于分频和深度神经网络的声源定位方法,其包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810174588.0/2.html,转载请声明来源钻瓜专利网。