[发明专利]一种多方语音通话的智能混音方法及装置有效
申请号: | 201410831701.X | 申请日: | 2014-12-25 |
公开(公告)号: | CN104539816A | 公开(公告)日: | 2015-04-22 |
发明(设计)人: | 林成保;黄博贤;梁俊斌 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | H04M3/56 | 分类号: | H04M3/56;H04L12/64 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 510655 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多方 语音 通话 智能 方法 装置 | ||
技术领域
本发明涉及多媒体技术领域,特别涉及一种多方语音通话的智能混音方法及装置。
背景技术
随着长途通讯需求的不断增长,基于语音包交换的VOIP(Voice over Internet Protocol,网络电话)技术以其低成本、易扩充及优良的通话质量越来越受到用户的青睐,而在此基础之上的多方语音通话业务应用也越来越广泛。多方语音通话需要将任何一方的声音都可以传送到任何其它一方,任何一方都可以同时听到多个其它通话方的声音,因而就需要对各方语音数据进行混音处理。
目前混音处理是混音服务器接收各与会方终端发送的语音数据,将各方会话的所有语音数据进行混音处理,并在混音处理之后在混音数据中分别减去每个与会方的语音数据,再将减去每个与会方的语音数据发送给对应的与会方终端。
发明人发现现有技术至少存在以下问题:
当参与混音处理的与会方较多时,由于每个与会方的环境中都存在底噪,导致即使各个与会方都不发言时,最终混音处理后的混音数据会听到“嗡嗡”的底噪干扰;另外由于参与会话方较多的缘故,因衰减导致说话的声音会很小,听众较难辨识发言内容和发言者的身份。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种多方语音通话的智能混音方法及装置。所述技术方案如下:
一方面,提供了一种多方语音通话的智能混音方法,所述方法包括:
在进行语音通话过程中,获取除本端外各活跃语音通道的当前帧数据;
获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量;
根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识,选取进行混音处理的语音通道;所述选通标识为每一个活跃语音通道在上一次进行语音通道选择时记录的选择结果;
对所述选取到的语音通道的当前帧数据进行叠加混音处理,并输出所述叠加混音后的混音数据。
可选的,所述获取除本端外各活跃语音通道的当前帧数据,包括:
获取除本端外各活跃语音通道的语音数据流,并对所述各活跃语音通道的语音数据流进行分帧处理,得到所述各活跃语音通道的语音数据流中的当前帧数据。
可选的,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量,包括:
对所述各活跃语音通道的当前帧数据进行语音活性检测,得到所述各活跃语音通道的当前帧数据的语音活性检测结果;
如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则计算该活跃语音通道的当前帧数据的短时能量,并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量;
如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语音通道的当前帧数据的短时能量置为零,并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量。
可选的,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量,包括:
接收所述各活跃语音通道发送的针对当前帧数据的附加信息,并从所述附加中获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量。
可选的,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识,选取进行混音处理的语音通道,包括:
根据有效语音的语音通道数量,选取进行混音处理的最大语音通道数量;
根据所述各活跃语音通道的当前帧数据的语音活性检测结果,调整所述各活跃语音通道对应的选通标识;
根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的语音通道。
可选的,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果调整所述各活跃语音通道对应的选通标识,包括:
如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则保持该活跃语音通道对应的选通标识不进行调整;
如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语音通道对应的选通标识设置为第二标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司;,未经广州华多网络科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410831701.X/2.html,转载请声明来源钻瓜专利网。