[发明专利]语音信号的混音方法和装置有效
申请号: | 200910235813.8 | 申请日: | 2009-10-09 |
公开(公告)号: | CN102045461A | 公开(公告)日: | 2011-05-04 |
发明(设计)人: | 毕永建;邓凌 | 申请(专利权)人: | 杭州华三通信技术有限公司 |
主分类号: | H04M3/56 | 分类号: | H04M3/56;H04N7/15 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王一斌;王琦 |
地址: | 310053 浙江省杭州市高新技术产业*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 信号 方法 装置 | ||
技术领域
本发明涉及语音信号处理技术,具体涉及语音信号的混音方法和装置。
背景技术
随着电信技术的发展,视频会议业务得到了越来越广泛的应用,视频会议系统中一般包括用于会议控制的多点控制单元(MCU)和至少一个视频会议终端(简称终端)。通常,目前的视频会议系统中终端通常都不止两个,其中一个终端的语音都可以传送至所有其他终端,而每一个终端都同时可听到多个其他终端的声音。因此在视频会议系统中通常都需要进行混音处理,即将多个终端的语音混合起来,以便任一终端都可同时听到其他终端的声音。
图1为MCU中一种混音单元的结构示意图。如图1所示,接口与MCU的上层单元相连,MCU从网络上接收各路视频会议终端的码流,经上层处理后,通过接口下发到混音单元,混音单元分别对各路码流进行拼包处理,每个语音包包含整数个语音帧,且每个语音包所含语音帧的时长总和等于混音时长。例如,码流A的帧长为30ms,混音时长为60ms,则一个语音包含有2个码流A的语音帧。
然后,根据码流协议调用相应解码器对语音包进行解码,依据语音包所属终端,将解码语音包分别缓存到各终端对应的输入缓存通道中。如图1所示,假设当前4个终端(A~D)中有3个终端(A~C)参加混音,则输入缓存通道inCh1、inCh2、inCh3中分别缓存终端A、B、C的解码语音包。每隔一段时间间隔更新输入缓存通道中的数据,该时间间隔等于混音时长。各输入缓存通道的长度通常设置为相等且每个输入缓存通道能够容纳一个混音时长的语音数据。
接着,混音单元从各输入缓存通道中取得解码语音包进行混音操作。对于参加混音的每个参混终端,例如终端1来说,在混音时,需要将除终端1之外的其他几路语音混音,得到非全混语音数据,从而使得终端1不听到自身会场的声音。同时,混音单元还需要将所有参混终端的语音混音,得到全混语音数据,该全混语音数据提供给非参混终端,使其听到所有参混终端所在会场的声音。如图1所示,对于终端A,混合终端B和C的语音数据,缓存到输出缓存通道outCh1,对于终端B,混合终端A和C的语音数据,缓存到outCh2,依此类推;此外,还需混合终端A、B和C的语音数据,缓存到通道outChN+1中。
之后,混音单元根据各终端(包括参混终端和非参混终端)采用的码流协议调用相应编码器,对缓存在各输出缓存通道中的语音数据进行编码组包处理,得到的编码组包包含整数倍帧长的混音数据,将编码组包通过接口发送给上层单元。如图1所示,outCh1中的语音数据经编码组包后发送给终端A;outCh2中的语音数据经编码组包后发送给终端B,依此类推;此外,outChN+1中的语音数据经编码组包后发送给非参混终端D。
在上述混音过程中,为了保证混音效果,需要在拼包时保证各路语音包在时间上对齐,从而确保后续执行混音操作是对同一时间段内的各路语音包进行混音。
目前音频领域存在多种码流协议,如g.711、g.722、g.723、g.728、g.729、g.722.1以及其它非G系列的音频协议,如动态图像专家组(MPGE,MovingPictures Experts Group)系列。不同音频协议对应的语音帧长度可能不同,例如G系列的音频协议,其语音帧长度为10ms或20ms或30ms,而mpeg系列音频协议的音频帧为24ms。
由于在现有技术中,混音时长需要是帧长整数倍才能保证时间对齐,因此,如果各视频会议终端采用相同的码流协议,则比较好处理,混音长度可以固定为音频帧的整数倍。例如帧长均为10ms,则混音长度可以取60ms。
如果各视频会议采用不同的码流协议,但不同码流协议对应的帧长存在匹配关系,即各码流的帧长成整数倍关系,则可以采用最长的帧长或最长帧长的整数倍作为混音时长。例如,码流A的帧长为10ms,码流B的帧长为30ms,则混音长度可以取30ms,或者30ms的整数倍,例如60ms。图2示出了采用60ms作为混音时长时,码流A的拼包结果和码流B的拼包结果。
如果各视频会议不仅采用不同码流协议,且不同码流协议对应的帧长不存在匹配关系,则通常的作法是,取各路码流帧长的最小公倍数作为混音时长。例如,码流A的帧长为24ms,码流B的帧长为30ms,则按照最小公倍数关系,混音长度取120ms。在实际中,为了使人耳感觉不到明显的延时,一般混音时长选择小于100ms,显然120ms不能满足要求,混音效果不好,听者会感觉到明显延时,同时由于混音时长过长使得一次解码、混音和编码的时间过长,从而消耗较多的系统资源,可能导致芯片性能不足。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州华三通信技术有限公司,未经杭州华三通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910235813.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:行星齿轮减速机的密封结构
- 下一篇:减速器的换挡装置