[发明专利]一种直播间的语音连麦方法及客户端有效
申请号: | 201811031974.0 | 申请日: | 2018-09-05 |
公开(公告)号: | CN109104616B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 潘璠 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | H04N21/2187 | 分类号: | H04N21/2187;H04N21/233;H04N21/422;H04N21/43;H04N21/439;H04N21/4788;H04N21/6437;H04N21/81 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;陈刚 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 直播 语音 方法 客户端 | ||
1.一种直播间的语音连麦方法,其特征在于,所述方法包括:
采集用户的语音信息,并将采集的所述语音信息上传至语音服务器,以使得所述语音服务器将所述用户上传的语音信息转换为所述用户的语音流;
从所述语音服务器处下载与所述用户处于同一直播组的其他用户的语音流;
将下载的所述语音流合成为一股语音流,并对合成后的语音流进行解码,得到人声音轨;
从直播服务器处下载直播音视频流,并对所述直播音视频流进行解码,得到直播音轨;
同步输出所述人声音轨和所述直播音轨;所述同步输出所述人声音轨和所述直播音轨包括:识别所述人声音轨的音量,并根据识别出的所述音量,调节所述直播音轨的音量大小;将所述人声音轨和调节音量之后的直播音轨合并为一个音轨,并输出合并之后的音轨;其中,根据识别出的所述音量,调节所述直播音轨的音量大小包括:若识别出的所述人声音轨的音量大于或者等于指定音量阈值,将所述直播音轨的音量调低至第一音量;在所述直播音轨的音量处于所述第一音量时,若识别出的所述人声音轨的音量小于所述指定音量阈值,将所述直播音轨的音量调高至第二音量。
2.根据权利要求1所述的方法,其特征在于,在采集用户的语音信息之后,所述方法还包括:
识别所述语音信息中的音频特征,并确定所述音频特征与标准人声特征之间的差异值;
若所述差异值大于或者等于指定阈值,将所述音频特征对应的信息从所述语音信息中去除。
3.根据权利要求2所述的方法,其特征在于,识别所述语音信息中的音频特征,并确定所述音频特征与标准人声特征之间的差异值包括:
将处于时间域的所述语音信息转换至频率域,并从频率域的语音信息中识别出信号强度达到指定强度阈值的信息对应的目标频率,并将识别出的所述目标频率作为所述语音信息中包含的音频特征;
计算所述目标频率与标准人声频率之间的频率差值,并将所述频率差值作为所述音频特征与标准人声特征之间的差异值。
4.根据权利要求2所述的方法,其特征在于,在将所述音频特征对应的信息从所述语音信息中去除之后,所述方法还包括:
在所述语音信息中识别目标语音段,所述目标语音段中任一信息的强度值均低于指定强度阈值;
若所述目标语音段的时长大于或者等于指定时长阈值,在所述目标语音段中添加指定噪音信号。
5.根据权利要求2所述的方法,其特征在于,在将所述音频特征对应的信息从所述语音信息中去除之后,所述方法还包括:
在所述语音信息中识别出语音的起始位置和终止位置,并在所述起始位置和所述终止位置处分别添加相匹配的语音拟合信息。
6.根据权利要求1所述的方法,其特征在于,在采集用户的语音信息之后,所述方法还包括:
识别所述语音信息中的回音信号,并从所述语音信息中将所述回音信号去除。
7.根据权利要求1所述的方法,其特征在于,在采集用户的语音信息之后,所述方法还包括:
识别所述语音信息中包含的声纹特征,并将识别出的所述声纹特征与所述用户的声纹特征进行比对;
若识别出的所述声纹特征与所述用户的声纹特征不一致,将识别出的所述声纹特征对应的信息从所述语音信息中去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811031974.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于网络信息安全的直播方法
- 下一篇:视频请求响应方法和系统