[发明专利]一种多话筒混音方法及装置有效
申请号: | 201010594522.0 | 申请日: | 2010-12-17 |
公开(公告)号: | CN102056053A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 彭远疆 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | H04R3/00 | 分类号: | H04R3/00 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多话 筒混音 方法 装置 | ||
技术领域
本发明涉及音频信息处理领域,尤其涉及一种多话筒混音方法及装置。
背景技术
在视频会议系统中,需要使用话筒来采集本地发言人的声音,该声音经过音频编码后传输到远端,在远端系统中解码后经过功率放大器输出到音箱中回放出来。为了减小房间混响和背景噪音的影响,在视频会议系统中一般采用定向话筒来采集声音(即拾音)。由于定向话筒在正对着话筒的方向上拾音效果最好,为了保证不同方位发言人讲话时都有良好的拾音效果,一般需要多只定向话筒来采集不同方位发言人的语音,这种拾音方式称为分布式拾音。如图1所示为分布式拾音方式示意图,图1描述了视频会议系统中一个典型的会议室布局,每个与会者使用一个单独的话筒作为拾音设备。分布式拾音为了防止相邻话筒采集到的语音信号出现串扰,要求每个话筒都靠近一个或几个讲话人,且话筒之间的间距一般比话筒到对应讲话人间的距离要大。有时为了降低话筒总数量,视频会议系统中也会使用阵列麦克风来进行集中式拾音。如图2所示,为集中式拾音方式示意图,图2描述了视频会议系统中使用了阵列麦克风的集中式拾音方案,图中所有与会者共同使用一个阵列麦克风作为拾音设备。阵列麦克风把多个拾音单元按一定的布局装配于一个整体设备之中,阵列麦克风外形多为圆盘或多边形形状,每个拾音单元一般布处于设备外边沿且指向外方向。阵列麦克风中相邻拾音单元之间的间距一般远小于阵列麦克风设备到讲话人的距离。当单个阵列麦克风无法有效覆盖整个房间时,可以使用多个阵列麦克风来分区域拾音。如图3所示为使用多个阵列麦克风的集中式拾音方式示意图。图3描述了在一个较大的房间中,使用了多个阵列麦克风拾音,每个阵列麦克风负责一片区域的拾音。
考虑到编解码复杂度、传输带宽、系统兼容性等因素,需要把多个话筒(拾音单元)采集到的多通道信号混合成单通道或者双通道立体声信号,然后再做单通道/立体声编码和传输。评价多话筒混音技术指标主要是混音后输出语音的信噪比、音质以及语音的平稳性,对于立体声系统,声像方位(相位)信息的保真度也是一个重要的衡量指标。
传统的视频会议系统多使用简单的基于信号强度(短时能量或者信号幅度)的混音方法,把多个话筒采集到的语音信号混合后输出,典型的混音方法有:
1、直接混音法:即简单地把各个通道输入信号相加混音后输出到单通道,确定是混音后背景噪声变大,信噪比(SNR)明显降低,而且混响严重导致语音含糊、音质差。
2、第一话筒优先混音法:统计各输入通道的信号强度,找出信号强度最大的有声通道直接作为输出通道。这种方法不会降低信噪比,但其缺点是当有两个或两个以上不同位置的人同时说话时会有明显的通道切换感,语音和背景噪声的音量大小会有明显变化。
3、动态加权混音法:统计各有声通道的信号强度并按照大小排序,只将信号强度最大的几个通道进行加权混音,其它通道不参与混音。这种方法可以减轻不同位置讲话人同时讲话时的通道切换,但其缺点是由于只利用了信号的强度信息,单个人讲话时也会打开物理上相邻的两个或多个通道,导致信噪比降低,混响加重且语音含糊。
上述混音方法,完全基于信号强度来判断通道选通,在很多应用场景中性能较低,容易出现误判:
1)在典型的阵列麦克风的应用中,如图2,当距离阵列话筒较远位置的某一发言人讲话时,阵列话筒设备中的每个话筒采集到的信号强度差异很小,导致混音时容易出现误判。
2)即使在分散放置话筒的应用中,由于桌面、白板、墙面等的反射作用,如图4所示,为含有反射物的分布式拾音方式示意图,基于信号强度的判别方法也容易出现误判,导致反射声/混响声较大的通道被错误选通,严重影响了混音后的语音音质。
在立体声/多通道系统中,混音时除了考虑不同通道的能量混合,还要求混音后信号仍能保持原始声源的方位(位置)信息,不同位置的话筒往往对应着音源的不同位置,错误的选通会导致声像位置的突变,从而对远端听者造成更大的干扰。
发明内容
本发明提供一种多话筒混音方法及装置,能够降低输入通道选通的误判率,提高混音后的音频质量。
一种多话筒混音方法,包括:
统计当前时段各输入通道的信号强度,并选出信号强度最大的至少两个输入通道进行语音检测;
将检测出的有语音的输入通道确定为语音输入通道,当语音输入通道为至少两个时,确定各语音输入通道的信号之间的信号相似度;
根据各个信号相似度控制语音输入通道的选通;
将选通的语音输入通道的信号进行加权混音输出。
一种多话筒混音装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010594522.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:系统级封装信号完整性改进的电容装载结构
- 下一篇:陶瓷制热板及其制造方法