[发明专利]一种音频处理方法、终端及服务器在审

申请号：	202010360286.X	申请日：	2020-04-30
公开（公告）号：	CN111276152A	公开（公告）日：	2020-06-12
发明（设计）人：	高毅;陈冰;黄淳林;陈静聪;奚驰;游利为;罗程;李斌	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L19/008	分类号：	G10L19/008;G10L19/16;G10L21/007;G10L21/0208;G10L25/78;G10L25/03
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	李娟
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频处理方法终端服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种音频处理方法、终端及服务器，涉及通信技术领域，该方法包括：终端对采集的音频信号进行语音特征提取，获得语音特征信息，然后将包含语音特征信息的音频数据包发送至服务器。服务器从音频数据包中获得语音特征信息并基于语音特征信息进行选路，从各个音频数据包的编码音频信号中选取目标音频信号，之后再基于选择的目标音频信号进行混音处理。相较于服务器对音频数据包解码后进行语音特征提取来说，终端进行语音特征提取获得的语音特征信息更加真实反映了音频的语音段和非语音段，从而提高服务器选路的准确性。由于服务器不需要对所有的音频数据包进行解码以及不需要进行语音特征提取，从而降低了服务器的消耗。

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种音频处理方法、终端及服务器。

背景技术

在多人交互的语音/视频通信系统中，混音是必不可少的步骤。目前由服务器接收到多路音频数据流并分别对多路音频数据流进行解码，然后根据解码之后的音频数据流计算音频特征，并基于音频特征进行选路，选出有人说话的音频数据流。之后再将这些音频数据流混音成一路，并将混音后的音频数据流重新编码打包，作为一路音频数据流发送给接收客户端。由于服务器解码之后的音频一般已经是经过终端的音频处理链路处理的音频，该音频所包含的音频特征并不一定能真实地反映语音段和非语音段之间的区别，从而影响服务器的选路效果。

发明内容

本申请实施例提供了一种音频处理方法、终端及服务器，用于提高服务器的选路效果，同时降低服务器的消耗。

一方面，本申请实施例提供了一种音频处理方法，包括：

接收N个终端发送的音频数据包，每个音频数据包中包括语音特征信息和编码音频信号，所述语音特征信息是对采集的音频信号进行语音特征提取后获取的；

根据各个音频数据包中的编码音频信号对应的语音特征信息，从所述各个音频数据包中的编码音频信号中选取M个终端发送的目标音频信号，所述M为小于N的正整数；

基于所述M个终端发送的目标音频信号进行混音处理。

一方面，本申请实施例提供了一种音频处理方法，包括：

对采集的音频信号进行语音特征提取，获得语音特征信息；

对采集的音频信息号进行自动增益控制和编码后，与所述语音特征信息进行打包，获得音频数据包；

将所述音频数据包发送至服务器，以使所述服务器根据N个终端发送的音频数据包中的编码音频信号对应的语音特征信息，从各个音频数据包中的编码音频信号中选取M个终端发送的目标音频信号，所述M为小于N的正整数，基于所述M个终端发送的目标音频信号进行混音处理。

一方面，本申请实施例提供了一种服务器，包括：

接收模块，用于接收N个终端发送的音频数据包，每个音频数据包中包括语音特征信息和编码音频信号，所述语音特征信息是对采集的音频信号进行语音特征提取后获取的；