[发明专利]混音方法、装置、设备、系统及可读存储介质有效
申请号: | 201911358366.5 | 申请日: | 2019-12-25 |
公开(公告)号: | CN110995946B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 王展;胡小鹏;顾振华 | 申请(专利权)人: | 苏州科达科技股份有限公司 |
主分类号: | H04M3/56 | 分类号: | H04M3/56;G10L19/012;H04L29/06 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 田媛媛 |
地址: | 215011 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 方法 装置 设备 系统 可读 存储 介质 | ||
本发明公开了两种可分别应用于多点会议控制器和SFU中混音方法、装置、设备、系统及可读存储介质。当采用多点会议控制器进行混音处理时,在静音状态多点会议控制器不进行混音处理,在非静音状态下对音频RTP包进行筛选后进行混音,可大大降低多点会议控制器的混音任务量,在参会方较多的场景下,多点会议控制器也能满足混音需求。当采用终端测进行混音处理时,在静音状态SFU不转发音频数据包,在非静音状态下对音频RTP包的筛选,可大大降低SFU向各个会议终端转发的音频RTP包的数量,即会议终端的混音任务量便可降低。如此,在参会方较多的场景下,终端侧也能满足混音需求。
技术领域
本发明涉及信号处理技术领域,特别是涉及两种混音方法、装置、设备、系统及可读存储介质。
背景技术
随着在多方视频会议中,每一个接收端都要能够听到其他终端发出的声音,同时不能听到自己发出的声音,因此就需要有混音功能;混音可以在平台做,也可以在终端侧做。在平台做混音时平台就需要接收多有终端发送的音频码流,并进行解码,然后针对不同终端进行混音,使其不包含接收终端发送的声音,最后将混音后的声音进行编码发送给接收端。若终端做混音,则平台接收终端的音频码流,并将其转发给其他终端,终端收到多条音频码流后进行解码,最后进行混音播放。
对于上面所述的两种混音方式,在入会方数较少时,平台或者终端的性能能够满足解码播放;但在入户方数较多,甚至上百级别的大方数会议中,平台或者终端的性能完全不能满足大量的音频编解码和音频码流转发的需要。且,在大多数会议中,难以保证所有终端都能够被哑音,这就会导致很多噪声进入混音,导致混音后的声音嘈杂,严重影响声音的效果。
综上所述,如何有效地解决入会方数量较多情景下的混音等问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本发明的目的是提供两种混音方法、装置、设备、系统及可读存储介质,以满足入会方数量较多的情景下的混音需求。
为解决上述技术问题,本发明提供如下技术方案:
一种混音方法,应用于多点会议控制器,包括:
接收各个会议终端发送的音频RTP包,并读取各个所述音频RTP包的扩展头信息;所述扩展头信息包括声音特征信息或静音标记信息;
利用当前混音时间对应的所述静音标记信息判断当前混音时间是否为静音状态;
如果是,则生成含有静音标记的音频帧;
如果否,则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包,并对所述目标音频RTP包进行解码混音;对混音结果进行编码,得到当前混音时间各个所述会议终端分别对应的混音RTP包,将所述混音RTP包发送至各个所述会议终端,以便所述会议终端利用所述混音RTP包播放会议语音。
优选地,所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记;利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包,包括:
判断具有所述声音特征信息的音频RTP包的路数是否小于预设阈值;
如果否,则按所述能量值的大小进行排序,并结合所述音乐标记、所述语音标记和所述噪音标记筛选出所述目标音频RTP包;
如果是,则将具有所述声音特征信息的音频RTP包确定为所述目标音频RTP包。
优选地,所述对混音结果进行编码,得到混音RTP包,包括:
分别判断各个所述会议终端分别对应的上一帧混音RTP包是否发送给各个所述会议终端;
将未发送的帧数添加至相应的会议终端对应的RTP扩展头中,获得所述混音RTP包。
优选地,在所述生成含有静音标记的音频帧之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州科达科技股份有限公司,未经苏州科达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911358366.5/2.html,转载请声明来源钻瓜专利网。