[发明专利]一种多方通话的多模式语音合成方法与系统以及服务器有效
申请号: | 201510593624.3 | 申请日: | 2015-09-14 |
公开(公告)号: | CN105304079B | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 周肖宇 | 申请(专利权)人: | 上海可言信息技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L19/008;G10L21/02;G10L25/69;G10L25/72;H04M9/08;H04M7/00;H04M3/58 |
代理公司: | 深圳市行一知识产权代理事务所(特殊普通合伙) 44453 | 代理人: | 杨贤 |
地址: | 200120 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器,所述方法包括解码、统一的重新采样、静音检测、语音合成、回声消除、编码等步骤,其中语音合成按照检测到的非静音的语音信号的路数不同而设置不同的语音合成模式。本发明不仅可以消除溢出现象,而且通过对各个通话方的发言情况进行统计分析,从而根据实际情况提出了个性化的混音处理方案,并且最大程度的保持了各路语音信号的原本特征,算法简单、混音速度快,且不会引入严重的噪声,实现了高质量的多方通话。 | ||
搜索关键词: | 一种 多方 通话 模式 语音 合成 方法 系统 | ||
【主权项】:
1.一种多方通话的多模式语音合成方法,其特征在于所述方法包括如下步骤:步骤10,对经由通信网络从各个通话方客户端接收的M路语音信号进行解码,得到M路解码后的语音信号,其中每一路解码后的语音信号记为ai,其中M为大于等于1的整数,i为大于等于1且小于等于M的整数;步骤20,对所述M路解码后的语音信号ai进行Q位的统一的重新采样,得到M路采样后的语音信号,其中采样后的语音信号记为bi;步骤30,将所述M路采样后的语音信号中的每一路bi,以音频帧为单位,同步进行静音检测,其中,在第j帧获得的非静音的语音信号记为bs(j),在第j帧获得的非静音的语音信号的路数记为N,其中N为大于等于0且小于等于M的整数,s为大于等于1且小于等于N的整数;步骤40,如果N为0,则返回步骤30;如果N为1,则进入步骤50;如果N等于2,则进入步骤60;如果N大于等于3,则进入步骤70;步骤50,采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第一语音合成结果C1(j),然后进入步骤80;其中步骤50中的采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第一语音合成结果C1(j)具体为:采用公式一获得第j帧的第一语音合成结果C1(j),其中,Q为步骤20中的统一的重新采用的位数:
步骤60,采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第二语音合成结果C2(j),然后进入步骤80;其中步骤60中的采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第二语音合成结果C2(j)具体为:采用公式二获得第j帧的第二语音合成结果C2(j),其中,公式二中的权重Ws(j)采用公式三获得,|bs(j)|为在第j帧获得的第s路非静音的语音信号的信号强度,Fs为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量,α为信号强度权重系数,β为非静音帧数量权重系数,α+β=1,α和β分别为正数:![]()
步骤70,采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第三语音合成结果C3(j),然后进入步骤80,其中步骤70中的采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理,获得第三语音合成结果C3(j)具体包括;步骤71,将所述N路非静音的语音信号按照信号强度进行排序;步骤72,选取信号强度最大的前P路非静音的语音信号采用公式四获得第三语音合成结果C3(j),剩余的N‑P路非静音的语音信号不参与语音合成,即剩余的N‑P路非静音的语音信号的权重Ws(j)为0,其中P为大于2且小于N的整数,其中,公式四中的权重Ws(j)采用公式五获得,|bs(j)|为在第j帧获得的第s路非静音的语音信号的信号强度,Fs为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量,α为信号强度权重系数,β为非静音帧数量权重系数,α+β=1,α和β分别为正数:![]()
步骤80,将第一语音合成结果、第二语音合成结果或者第三语音合成结果减去各个通话方客户端的语音数据后,再进行回声消除处理,得到各个通话方客户端的输出语音信号;步骤90,将各个通话方客户端的输出语音信号按照各个通话方客户端的编码方式进行编码后传输到相应的各个通话方客户端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海可言信息技术有限公司,未经上海可言信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510593624.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种语音输出方法及装置
- 下一篇:一种敲击弦乐器的音乐多音符估计方法及系统