[发明专利]一种多方语音通话的智能混音方法及装置有效
申请号: | 201410831701.X | 申请日: | 2014-12-25 |
公开(公告)号: | CN104539816A | 公开(公告)日: | 2015-04-22 |
发明(设计)人: | 林成保;黄博贤;梁俊斌 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | H04M3/56 | 分类号: | H04M3/56;H04L12/64 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 510655 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多方 语音 通话 智能 方法 装置 | ||
1.一种多方语音通话的智能混音方法,其特征在于,所述方法包括:
在进行语音通话过程中,获取除本端外各活跃语音通道的当前帧数据;
获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量;
根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识,选取进行混音处理的语音通道;所述选通标识为每一个活跃语音通道在上一次进行语音通道选择时记录的选择结果;
对所述选取到的语音通道的当前帧数据进行叠加混音处理,并输出所述叠加混音后的混音数据。
2.根据权利要求1所述的方法,其特征在于,所述获取除本端外各活跃语音通道的当前帧数据,包括:
获取除本端外各活跃语音通道的语音数据流,并对所述各活跃语音通道的语音数据流进行分帧处理,得到所述各活跃语音通道的语音数据流中的当前帧数据。
3.根据权利要求1所述的方法,其特征在于,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量,包括:
对所述各活跃语音通道的当前帧数据进行语音活性检测,得到所述各活跃语音通道的当前帧数据的语音活性检测结果;
如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则计算该活跃语音通道的当前帧数据的短时能量,并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量;
如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语音通道的当前帧数据的短时能量置为零,并根据该活跃语音通道的当前帧数据的短时能量计算该活跃语音通道的短时平均能量。
4.根据权利要求1所述的方法,其特征在于,所述获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量,包括:
接收所述各活跃语音通道发送的针对当前帧数据的附加信息,并从所述附加中获取所述各活跃语音通道的当前帧数据的语音活性检测结果以及所述各活跃语音通道的短时平均能量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果、所述各活跃语音通道的短时平均能量、有效语音的语音通道数量以及所述各活跃语音通道对应的选通标识,选取进行混音处理的语音通道,包括:
根据有效语音的语音通道数量,选取进行混音处理的最大语音通道数量;
根据所述各活跃语音通道的当前帧数据的语音活性检测结果,调整所述各活跃语音通道对应的选通标识;
根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的语音通道。
6.根据权利要求5所述的方法,其特征在于,所述根据所述各活跃语音通道的当前帧数据的语音活性检测结果调整所述各活跃语音通道对应的选通标识,包括:
如果活跃语音通道的当前帧数据的语音活性检测结果为有效语音,则保持该活跃语音通道对应的选通标识不进行调整;
如果活跃语音通道的当前帧数据的语音活性检测结果为无效语音,则将该活跃语音通道对应的选通标识设置为第二标识。
7.根据权利要求5所述的方法,其特征在于,所述根据调整后的选通标识为第一标识的语音通道数量、所述进行混音处理的最大语音通道数量以及所述各活跃语音通道的短时平均能量,选取进行混音处理的语音通道,包括:
如果调整后的选通标识为第一标识的语音通道数量大于所述进行混音处理的最大语音通道数量,则将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道。
8.根据权利要求6所述的方法,其特征在于,所述将所述调整后的选通标识为第一标识的语音通道确定为进行混音处理的语音通道之后,所述方法还包括:
逐帧设置所述调整后的选通标识为第一标识的语音通道中短时平均能量最小的语音通道进行单调下降窗的平滑加窗操作;并且逐个将所述调整后的选通标识为第一标识的语音通道对应的选通标识调整为第二标识;
直至所述调整后的选通标识为第一标识的语音通道数量等于所述进行混音处理的最大语音通道数量为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司;,未经广州华多网络科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410831701.X/1.html,转载请声明来源钻瓜专利网。