[发明专利]一种基于固定波束形成的声源定位和语音增强方法及系统有效
申请号: | 201910845095.X | 申请日: | 2019-09-07 |
公开(公告)号: | CN110534126B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 刘富春;杨洋;林其光 | 申请(专利权)人: | 广州智伴人工智能科技有限公司;华南理工大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0264;G10L25/51;G01S5/20 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 江裕强 |
地址: | 510300 广东省广州市海珠区广州大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 固定 波束 形成 声源 定位 语音 增强 方法 系统 | ||
本发明公开了一种基于固定波束形成的声源定位和语音增强方法及系统。所述系统包括:数据采集模块、基于最大可控响应功率的声源定位模块和语音增强模块;数据采集模块包括音频文件解析模块和麦克风驱动模块;基于最大可控响应功率的声源定位模块包括子带时延的波束形成器、最大可控响应功率计算模块和最大可控响应功率搜索模块;数据采集模块采集的音频信息流传送给基于最大可控响应功率的声源定位模块,基于最大可控响应功率的声源定位模块输出声源位置估计方向给语音增强模块,语音增强模块以声源位置估计方向为核心,通过波束形成实现语音增强,得到声源位置信息;本发明解决了为智能终端提供支持的声源定位和语音增强的关键技术问题。
技术领域
本发明涉及多媒体技术领域,具体涉及一种基于固定波束形成的声源定位和语音增强方法及系统。
背景技术
从上世纪80年代起,人们就开始了将麦克风阵列应用于语音增强技术的研究,这在90年代逐渐成为了研究热点。基于麦克风阵列的语音增强算法中,Flanagan提出的延迟求和波束形成方法(Delay and Sum Beamformer,DSB)对不同传感器接收数据进行时延补偿,使得各传感器的接收信号在时间域上达到同步,再对其进行加权和求平均,得到增强信号。该方法在原理上简单,易于实现,但是麦克风数量及麦克风分布方式决定了算法性能,且算法中滤波系数固定不变,因此该算法也被称为固定波束形成。
为了使基于波束形成的语音增强算法适应更加复杂的噪声环境,人们提出了自适应波束形成方法。其中广义旁瓣消除(Generalized Sidelobe Variance,GSC)算法和线性约束最小方差波束形成(Linearly Constrained Minimum Variance,LCMV)算法最具代表性。广义旁瓣消除算法使带噪信号同时通过固定波束形成器和阻滞矩阵,利用阻塞矩阵过滤信号中的有用信号,从而得到估计的噪声模型。然而通过阻塞矩阵的信号仍然会含有部分目标语音信号,使得增强信号失真。LCMV算法基于最小方差无畸变响应(MinimumVariance Distortionless Response,MVDR)准则,在保证期望方向信号恒定不变的前提下,使阵列输出功率最小,从而抑制噪声。
而声源定位作为多通道语音增强所必需的前置算法,需要完成在人机交互中获取目标声源空间位置信息的任务,是基于Microphone Array的语音增强的关键一步。在基于Microphone Array的声源定位算法中,基于时间延迟(Time Delay of Arrival,TDOA)估计的声源定位算法和基于子空间的多信号分类(Multiple Signal Classification,MUSIC)算法得到了广泛应用。最经典的时间延迟估计方法是广义互相关(Generalized CrossCorrelation,GCC)方法。它利用相关函数和傅里叶变换,对接收信号在频域进行加权,从相关函数的峰值信息中提取相对时延。然而GCC算法对噪声非常敏感,使得实际应用中效果并不理想。MUSIC算法需要声源数量的先验知识,且需要一定数量的麦克风才能实现,在此基础上,算法计算量较大,因此算法的实现具有一定的难度。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种声源定位和语音增强的方法,以同时满足定位精度、算法实时性和语音增强质量。
发明内容
有鉴于此,本发明提供一种基于固定波束形成的声源定位和语音增强方法及系统,运用波束形成理论和方法,解决为应用于室内环境的智能机器人提供支持的声源定位和语音增强的关键技术问题。
本发明的目的至少通过如下技术方案之一实现:
一种基于固定波束形成的声源定位和语音增强系统,包括:数据采集模块、基于最大可控响应功率的声源定位模块和语音增强模块;所述数据采集模块包括音频文件解析模块和麦克风驱动模块;所述基于最大可控响应功率的声源定位模块,包括子带时延的波束形成器、最大可控响应功率计算模块和最大可控响应功率搜索模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智伴人工智能科技有限公司;华南理工大学,未经广州智伴人工智能科技有限公司;华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910845095.X/2.html,转载请声明来源钻瓜专利网。