[发明专利]基于语音类似度的混音方法有效

申请号：	201510052414.3	申请日：	2015-01-30
公开（公告）号：	CN104616665B	公开（公告）日：	2018-04-24
发明（设计）人：	付姝华	申请（专利权）人：	深圳市云之讯网络技术有限公司
主分类号：	G10L25/48	分类号：	G10L25/48;G10L19/00;H04M3/56
代理公司：	广州市越秀区哲力专利商标事务所(普通合伙)44288	代理人：	李悦,张鹏
地址：	518000 广东省深圳市南山区高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及基于语音类似度的混音方法，其对客户端输入的音频信号进行归一化处置，将音频信号分帧并进行时频变换，设置语音通道的目标电平，计算语音通道当前的电平大小，计算各语音通道的语音类似度，通过语音类似度和目标电平计算各语音通道的电平值，并根据各语音通道的电平值大小计算电平增益，得到电平提升后的音频频域数据，对音频频域数据进行叠加混音，最后用傅里叶反变换将音频频域数据转换为时域数据。语音类似度越大，对应的语音通道的电平值越大，如此可以保证混音中语音类似度越大的语音通道的音量就越大。
搜索关键词：	基于语音类似方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于语音类似度的混音方法，其特征在于，包括如下步骤：步骤一：对从客户端输入的音频信号进行归一化处理；步骤二：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]}，其中i为语音通道，vi为语音通道i的当前电平值，C为语音通道总数量；步骤三：对归一化的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；包括通过傅里叶变换将各帧音频信号从时域变换到频域：X(e)＝FFT(x(f))，f∈(0,N)为时域采样点序号，e∈(0,N)为频域采样点序号；步骤四：计算出每个客户端对应语音通道的语音类似度γ；包括如下子步骤：步骤a：根据公式E(e)＝|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e)；步骤b：根据公式统计音频频谱分布p，其中，ωa为固定值，对应各子频带权重系数，a为频域采样点；步骤c：根据公式计算音频频域数据的短时能量Es，b为滤波器更新系数，取值范围为[0，1]，Ea为第a个频谱能量；步骤d：根据公式计算音频频域数据的长时能量El，h为滤波器更新系数，取值范围[0，1]；步骤e：根据公式计算语音类似度γ，其中c为常量，取值范围为[0，1]，e表示以e为底的指数函数，e＝2.71828；步骤五：对各语音通道的语音类似度γ进行排序，选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六；步骤六：对各语音通道的语音类似度γ进行排序，选择语音类似度γ的排名前M的语音通道作为候选语音通道进入步骤七；M为候选语音通道的数量；步骤七：各语音通道根据其相应的语音类似度γ和预设的总目标电平β，通过公式：计算出各候选语音通道的目标电平值；上述αi为候选语音通道i的目标电平值，γi为候选语音通道i的语音类似度；步骤八：根据各语音通道的电平值，通过公式计算出各个候选语音通道的电平增益，其中，gi为语音通道i电平增益，为上一次的电平增益，e为滤波器系数；步骤九：根据各候选语音通道的电平增益值，对候选语音通道通过公式：x(i,j)＝gi*x(i,j),i∈[0,M]j∈[0,N]进行电平提升，其中j为频点编号，N为各帧内采样点总个数，x(i,j)表示第i个通道的第j个音频频域数据；步骤十：对各候选语音通道的音频频域数据进行叠加混音：其中k为当前语音输出通道，之后执行步骤十一；步骤十一：将叠加后的各帧音频频域数据从频域反变换到时域，对叠加后的音频信号进行反归一化处理并进行输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市云之讯网络技术有限公司，未经深圳市云之讯网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510052414.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语音类似度的混音方法有效

专利文献下载