[发明专利]一种语音混音处理方法及装置有效

申请号：	201410049034.X	申请日：	2014-02-12
公开（公告）号：	CN103794216A	公开（公告）日：	2014-05-14
发明（设计）人：	楼英明;魏洪钦	申请（专利权）人：	能力天空科技（北京）有限公司
主分类号：	G10L19/00	分类号：	G10L19/00
代理公司：	北京冠和权律师事务所 11399	代理人：	朱健
地址：	100083 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及音频处理技术领域，尤其涉及一种语音混音处理方法及装置。

背景技术

近年来，随着通信网络技术的迅速发展，在线教育受到越来越多的关注，人们逐渐习惯从网络上获取知识，互联网教育整合了更多优秀教学资源，将资源分配到世界各个角落，对促进知识传播、教育公平起到推进作用。因此，促进互联网教育的配套软硬件设施成为重要的研究内容。在互联网教育中，音视频教育是即时教育的必须部分，尤其是语音，不论是一对一还是一对多教学，都会涉及到多人同时通话，也就是说，所有通话者的语音信号都可以被传送到其他通话方，而每一个通话者也都能够同时听到多个其他通话方的声音。这样一来，在教学中就需要进行混音处理，使得网络课堂上所有人都可同时听到当前所有通话者的声音。

传统的混音方法是将正在讲话的通话者的所有语音信号线性叠加，然后取平均值。这样做的缺点是，叠加后的音频流可能会溢出，产生噪音，溢出的音频部分则需要进行滤波处理，这种方法虽然简单高效，但存在两方面的问题，首先是声音范围的最大值和最小值部分波形会被强行切断，造成较大波形失真，听觉上引起嘈杂，容易出现刺耳的爆破音，而随着同时通话者的人数增加，音频溢出的频率增大，采用这种叠加方式的混音一般不能突破4路输入音频流的限制，否则无法分辨出语音内容。其次，多路输入音频中音频流的能量强弱不同，由于人耳的掩蔽域效应，使得能量强的语音信号与能量弱的语音信号同时存在时，能量弱的语音信号无法被人耳有效识别，因此，在实际的多人语音应用中，当多个人同时发言时，通常只有少数音量大的语音可以被人耳有效识别。

本发明的发明人发现，在实际的大规模直播教学系统中，通常包括教师、助教、参与人和听众。其中，教师是一直发言、教师的话是需要一直保留的，而助教是偶尔插话，但助教的话也是需要一直保留的。参与人最好的情况则是需要发言的时候才让播放出来，不发言的时候则不进行处理。同时也要考虑一种“重叠”的情况，即多人同时发言。

采用目前的混音处理方法对大规模直播教学系统中的语音进行处理时，通常有以下缺点：

教学过程中，教师和助教的声音会起到提示或引导性作用，他们的声音应该确保被课堂上所有的听众清楚听到，因此更加重要，但是，采用目前的混音处理方法，在混音后，无法保证教师和助教的声音被听众接收到，造成语音信号的丢失。

发明内容

本发明实施例提供一种语音混音处理方法及装置，用于实现对基于语音属性的语音的混音处理。

一种语音混音处理方法，包括以下步骤：

对接收到的语音信号进行解析，获得所述语音信号的信息，所述信息中包含所述语音信号的用户信息；

将所述语音信号的用户信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号；

对所述待混音的语音信号进行混音处理。

本发明实施例的一些有益效果可以包括：实现了多路混音系统中对语音信号进行混音的效果，预设用户为重要发言人，且要对预设用户进行优先混音处理，通过将重要发言人作为高优先级预先设定，并将预设的用户的发言内容通过混音处理清晰地播放出来，从而保证重要信息被多个用户同时听到。

所述语音信号的信息包括：用户信息、能量值以及数据内容，所述用户信息包括用户身份标识ID、用户角色和用户发言次数。

本发明实施例的一些有益效果可以包括：根据语音信号的信息所包含的信息内容确定需要进行混音处理的语音信号，从而对重要发言人的发言内容进行混音，确保重要信息被多个用户同时听到。

所述将所述语音信号的用户信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号，包括：

将所述语音信号的用户身份标识ID与预设的用户身份标识ID对比，并将与所述预设的用户身份标识ID一致的用户身份标识ID所对应的语音信号确定为待混音的语音信号；或

将所述语音信号的用户角色与预设的用户角色对比，并将与所述预设的用户角色一致的用户角色所对应的语音信号确定为待混音的语音信号。

本发明实施例的一些有益效果可以包括：将语音信号的用户身份标识ID或者用户角色与预设的用户身份标识ID或用户角色进行对比，准确地判断所接收到的语音信号是否为预设用户的语音信号，若语音信号的用户ID或者用户角色与预设的用户ID或用户角色一致，则说明该语音信号为预设用户的语音信号，通过确定预设用户的语音信号，可将重要的语音信号作为高优先级进行混音，进而保证重要的信息被多个用户同时听到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于能力天空科技（北京）有限公司，未经能力天空科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410049034.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音混音处理方法及装置有效

专利文献下载