[发明专利]基于分频和深度神经网络的声源定位方法在审

申请号：	201810174588.0	申请日：	2018-03-02
公开（公告）号：	CN108647556A	公开（公告）日：	2018-10-12
发明（设计）人：	胡章芳;乐聪聪;谭术兵;徐渝松;陈飞雨	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/063;G06N3/08
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红;陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声源定位分频神经网络子带信号混响双耳滤波器互相关函数互相关计算定位特征声源位置双耳信号噪声环境最大概率最小相位反变换方位角水平差顶层谱域声源子带语音分解输出分类概率回归
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明请求保护一种混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法，涉及声源定位领域。该方法首先双耳信号通过Gammatone滤波器后得到分频的子带信号，在每个子带信号中进行最小相位分解的去混响处理，从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross‑Correlation Function,GCCF)。该方法将双耳语音定位视为一个多分类的问题，将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征，输入到顶层为softmax回归结构的DNNs，输出声源处于每个方位的概率，取最大概率方位角为声源位置。

技术领域

本发明属于声源定位领域，特别是一种基于分频和深度神经网络的声源定位方法。

背景技术

声源定位技术的内容涉及了模式识别、信号处理、语言科学、计算机技术、生理学、心理学、神经网络以及人工智能技术等多种学科，其应用领域非常广泛，包括移动通信、移动机器人、视频会议、银行安全系统、海关、公共场所监视、医学、人机交互等。例如，在军事方面，声源定位技术可以为雷达提供一个很好的补充，不需要发射信号，仅靠接收信号就可以判断目标的位置，因此，在定位的过程中就不会受到干扰和攻击。在视频会议中，说话人跟踪可为摄像机转向控制与语音拾取提供位置信息，使传播的图像和声音更清晰。声源定位技术因为其诸多优点以及在应用上的广泛前景成为一个研究热点。

伴随着科技地不断进步，研究者对于说话人的定位技术也不断地更新着，主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。经过几十年的发展与研究，如今的视频定位技术已经非常成熟，其可以在实现目标的定位与跟踪等功能。然而声源定位技术却更能引起众多研究者的重视，这主要由于声源定位技术有着独特的优势。

第一，隐蔽性。声源定位技术只需要利用麦克风来接收声音信号，而不必向外界发送任何东西，这一点使得声源定位技术在不改变周围环境下能够轻松得到外界目标声音的信息，而自己本身的位置却很难被外界所发现。正是声源定位技术的隐蔽性，很多潜水艇在作战中不会轻易打开声呐等设备，而会使用声源定位技术来追踪目标的位置。

第二，实用性。声音是属于声波，声波在传输中不会受到电磁场、光线强弱等的干扰与限制。光线强度弱的环境对于视频定位技术影响很大，存在障碍物的环境对电磁波有一定干扰。如在深海中由于光线很弱，视频定位技术就不能使用，而激光与电磁波在深海中能量的衰减会快速导致穿透距离很短。然而这种情况下声源定位技术却不会受限制于深海环境中，可以很好的实现目标声源的定位。

第三，易实现。声源定位技术相比于其他几种定位技术，在成本上与设备上的要求就低很多了，因此声源定位技术在生活中容易得到应用。

在现实生活中，人们的谈话场景通常存在多个声源、背景噪声以及混响，但是人耳听觉系统能够有效地识别和定位出感兴趣的声源信号，这种现象被称为“鸡尾酒效应”。这种现象经常出现在鸡尾酒会上，两个客人可以在说话的一群人的旁边正常的交流，听者还可以根据感兴趣的语音信号判断出目标声源的方向，比如听者在听到有人叫唤他的名字时会将头转向说话者。由此可以看出，人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。声源定位技术起源于人们对于人耳听觉特性的研究，因此它通过模拟人耳听觉系统实现对声源方向的定位功能。声源定位的广适性使其应用于多个领域，在声学通信、人工智能和助听器等方面有着重要的研究意义和实用价值。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种在混响和噪声环境下提高声源定位的准确度的基于分频和深度神经网络的声源定位方法。本发明的技术方案如下：

一种基于分频和深度神经网络的声源定位方法，其包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810174588.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于视频图像的轿厢内有无人员的检测方法
下一篇：信息处理设备、信息处理方法和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于分频和深度神经网络的声源定位方法在审

专利文献下载