[发明专利]一种基于视频源实现混音的方法和装置有效
申请号: | 201210384236.0 | 申请日: | 2012-10-11 |
公开(公告)号: | CN103024339A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 王东琦 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 实现 方法 装置 | ||
技术领域
本发明涉及音频信号处理领域,尤其涉及一种基于视频源实现混音的方法和装置。
背景技术
出于降低企业成本和增加沟通效率的目的,越来越多的企业选择远程呈现系统建立视频会议系统。所谓的远程呈现系统,通常具有真人大小、眼对眼、图像拼接和声像同位等特点,通过提供真人大小的图像、高清晰度的视频和立体感的音频和特殊的设计环境,达到面对面沟通的效果。网真不仅能够实现远程通信,而且能够再现真实,通过网络提供身临其境般的面对面沟通的会议体验,使他们感到像在同一个房间之中。它不仅包括网络设备、终端设备,甚至包括桌椅等,以从整体上构建起网真会议室。
图1(其中,图1中10b与10c的结构与10a相同)给出了一个典型的有多个会场与会的视频会议示意图。在图1中的所示网真系统100中共有三个位置不同的会场10,在每一个会场10中都包括用于显示远端会场中的影像的显示设备102、采集本会场影像的摄像设备105、采集本会场的声音的麦克风设备104、以及呈现远端会场中的扬声器103。处理设备106则负责处理本端会场10中的摄像设备105捕捉的视频信号和麦克风设备104捕捉的音频信号,并对采集到的视音频信号经过处理后,例如进行语音增强、图像增强和视音频编码等处理后,通过网络发送给MCU(Multi Control Unit,多点控制单元)11;MCU同时也接收其它会场10b和10c发送过来的音视频和数据信号。
MCU根据用户的控制,完成音频,视频,数据信号的混合或切换处理, 再将处理后的数据在传送给各个会场10中的处理设备106;处理设备1
06接收到MCU 11发送的视音频和数据信号后,对接收到的信号做处理,例如对音视频信号进行解码后,把音频信号通过扬声器103、视频信号通过显示设备102呈献给本会场中的与会者。在示意图中,每一个显示设备102仅对应一个扬声器103,例如显示设备102a对应扬声器设备103a。但实际设置是可以采用多个扬声器来重现远端会场中的声音信号。
在远程呈现系统中,为了达到真人效果,实现较好的沟通效果,显示设备屏幕通常具有较大的尺寸,例如采用72英寸的显示器。一种理想的沟通效果是期望本端会场与会人感知到远端会场的与会人的声音能够与远端会场的与会人在本端会场呈现的影像所在位置相互匹配,例如远端会场中的与会人101b讲话时,期望声音能够从显示设备102a的右侧位置发出;如果出现远端会场与会人的声音在本端会场的呈现位置与远端会场与会人的影像在本端会场的呈现位置不匹配的情况,例如远端会场中的与会人10
1b讲话时对应的生在本端会场101e所在的位置呈现时,就会给用户沟通带来障碍,因此MCU设备11在进行混音时必须进行声像同位(声音和图象位置匹配)的处理。
现有技术在处理上述问题时采用如下方案:
在视频会议系统中,各个终端设备会把本会场的获取的音频信号通过网络发送给与之相连的MCU设备。而MCU设备则把接收到的其他会场中的音频信号发送给终端设备。而实际上,对于一个终端设备而言,如果MCU把其它所有会场的音频信号都发送过来,基于降低设备成本的考虑,终端设备和MCU设备的计算能力是有限的,终端设备不可能同时处理所有MCU发送过来的音频信号;而基于降低使用成本的考虑,也没有把其它会场中的音频信号都发送给终端设备的足够带宽。综合以上两方面的考虑,MCU并不会把所有非A会场中的音频信号都传送给A会场,而是根据一定的策略从非A会场中选取有限个会场的音频信号进行混音后再传送给A会场。
下面结合图2来说明现有技术中MCU的混音策略。对于与MCU相连 的会场和与之相连的会场通过网络发送过来的音频码流,定义如下:
为与MCU相连的第i个会场Ti送给MCU的码流,如图2中的即为会场T1送给MCU的码流;
为MCU发送给与该MCU相连的第i个会场的码流,如图2中的即为会场T1送给MCU的码流;
混音通常的实现方法如下:
第一步,从混音器输入的会场中的码流中找到包络(或能量)最大的N路(对应图中为4路)会场信号(对应图中按从大到小的顺序是是T1的T2的 T3的和T4的);
第二步,根据混音策略,对不同的会场,选取不同的会场来进行混音。
通常的做法,如果某会场Ti是最大N路会场中的一个,则选取其它(N-1)路最大会场进行混音,并发送给该会场Ti。如图中的T1,它属于最大四路会场中的一个,因此MCU要发送给T1的码流中是由T2的T3的和T4的所组合的码流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210384236.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:气密检测机
- 下一篇:一种基于半监督聚类的迁移学习方法