[发明专利]一种音视频信息融合的麦克风阵列语音增强系统及方法有效

专利信息
申请号: 201610698586.2 申请日: 2016-08-22
公开(公告)号: CN106328156B 公开(公告)日: 2020-02-18
发明(设计)人: 张军;陈鑫源;宁更新;冯义志;季飞;余华;陈芳炯 申请(专利权)人: 华南理工大学
主分类号: G10L21/0216 分类号: G10L21/0216;G06K9/00
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 视频 信息 融合 麦克风 阵列 语音 增强 系统 方法
【说明书】:

发明公开一种音视频信息融合的麦克风阵列语音增强系统及方法。所述系统包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块,视频采集模块用于采集应用场景中说话人的视频信号;麦克风阵列接收模块用于接收说话人的音频信号;音视频来波方向联合估计模块利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块利用语音和视频信号联合对语音进行二次增强处理。本发明能显著提高麦克风阵列语音增强系统的性能,能广泛应用于视频会议、车载电话、移动视频通话终端等场合。

技术领域

本发明涉及语音信号处理领域,特别是一种音视频信息融合的麦克风阵列语音增强系统。

背景技术

通话设备在实际使用环境中容易受到背景噪音和混响等干扰,使语音信号的质量和可懂度受到影响,因此在许多通话应用中都需要进行有效的语音增强处理,以抑制噪声,提高语音清晰度、可懂度和舒适度。

目前常用的语音增强方法主要包括两类,一类是基于单麦克风的语音增强方法,包括谱减法、维纳滤波、MMSE、卡尔曼滤波、小波变换等,这类方法利用单麦克风接收语音信号,通过时域、频域、小波变换域等滤波和处理来抑制噪声,提高语音的质量;另一类是基于麦克风阵列的语音增强方法,利用多个麦克风接收到的语音信号里包含的空间相位信息对输入语音进行空间滤波,形成具有指向性的空间波束,对指定方向上的语音信号进行增强,能取得比单麦克风更好的增强效果。

现有的麦克风阵列语音增强技术可以大致分为固定波束形成法、自适应波束形成法、后置滤波法三类。固定波束形成法采用延迟相加进行时延补偿且滤波器的权值固定不变,具有运算量低,容易实现等优点,但不具备自适应抑制强干扰的能力。自适应波束形成法中,滤波器系数随着输入信号统计特性的变化而变化,使波束方向零陷对准噪声方向,而注视方向上信号的频率响应固定不变,以此来抑制其它方向上的干扰噪声。后置滤波法根据各信道接收信号间的自相关和互相关特性调整维纳滤波器的系数,含噪的语音信号经过维纳滤波后得到最小均方误差准则下的目标语音估计信号,可以在不相关噪声的环境下以较少的麦克风数目获得较好的消噪性能。但现有的麦克风阵列语音增强技术均基于空气传导的语音传感器,在实际应用中存在着以下的不足:(1)当环境噪声较强时,输出的语音质量不高;(2)当使用环境中存在多个声源时,麦克风阵列的来波方向估计容易出现错误判断;(3)当使用环境中存在多个声源时,传统的来波方向估计通常选择声音最强的声源信号进行增强,不方便使用者指定某个声源进行监听。

发明内容

针对现有麦克风阵列语音增强技术的不足,本发明提供一种音视频信息融合的麦克风阵列语音增强系统及方法,该系统利用音频和视频信息受噪声影响方式的不同,将视频信息用于提高麦克风阵列来波方向估计准确度和麦克风阵列增强语音的质量,能显著提高现有麦克风阵列语音增强系统的性能,可以广泛应用于视频会议、车载电话、移动视频通话终端等场合。

本发明的目的至少通过如下技术方案之一实现。

一种音视频信息融合的麦克风阵列语音增强系统,其包括视频采集模块、麦克风阵列接收模块、音视频来波方向联合估计模块、麦克风阵列语音增强模块和音视频联合语音增强模块,其中视频采集模块与音视频来波方向联合估计模块、音视频联合语音增强模块连接,用于采集应用场景中说话人的视频信号;麦克风阵列接收模块与音视频来波方向联合估计模块、麦克风阵列语音增强模块连接,用于接收说话人的音频信号;音视频来波方向联合估计模块与视频采集模块、麦克风阵列接收模块、麦克风阵列语音增强模块连接,利用音视频信息联合估计说话人音频的来波方向;麦克风阵列语音增强模块与麦克风阵列接收模块、音视频来波方向联合估计模块、音视频联合语音增强模块连接,利用麦克风阵列接收模块接收到的阵列语音信号来对语音信号进行增强;音视频联合语音增强模块与视频采集模块、麦克风阵列语音增强模块连接,利用经麦克风阵列语音增强模块增强后的语音和视频采集模块输出的视频信号联合对语音进行二次增强处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610698586.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top