[发明专利]一种基于模糊隶属函数的语音分离方法有效

申请号：	201310206373.X	申请日：	2013-05-29
公开（公告）号：	CN103325381A	公开（公告）日：	2013-09-25
发明（设计）人：	林琳;徐鹤;孙晓颖;陈健;胡封晔;魏晓丽	申请（专利权）人：	吉林大学
主分类号：	G10L21/0272	分类号：	G10L21/0272
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	魏征骥
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于模糊隶属函数的语音分离方法，属于语音分离方法。该方法结合模糊隶属函数，得到语音时频单元对目标信号隶属程度的更准确定义，并模拟人耳听觉系统建立听觉振荡模型，提取语音基音特征，根据基音周期特征对语音时频单元进行标记，组成前景流和背景流。根据标记的不同判断对应的时频单元为目标或是噪声，在合成阶段目标单元乘以高权重，噪声单元则乘以低权重，得到重新合成语音。本发明可以更精准的估计出基音周期，基于此特征线索，对时频单元做出更准确的标记，得到更完整的目标语音。由于该方法基于语音的基音特征，因此在复杂非平稳噪声下有较好的分离效果，应用范围广泛。
搜索关键词：	一种基于模糊隶属函数语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于模糊隶属函数的语音分离方法，其特征在于，包括下列步骤：（一）语音信号的预处理，包括语音信号的端点检测、预加重；（二）听觉特征提取过程如下：（1）将预处理后得到的信号经过模拟耳蜗的伽马通滤波器处理；1）伽马通滤波器的时域响应为g_c(t)＝t^i-1exp(-2πb_ct)cos(2πf_c+φ_c)U(t)(1≤c≤N)其中，N是滤波器的个数，c是滤波器的序数，按频率高低在[1,N]范围内取值，i是滤波器的阶数，U(t)是单位阶跃函数，t是时间，φ_c表示第c个滤波器的相位，f_c是滤波器的中心频率，每个滤波器的带宽与人耳的临界频带有关，听觉心理学中的临界频带可以用等效矩形带宽来度量EBR(f)＝24.7*(4.37f/1000+1)f为频率，b_c取值为b_c＝1.019EBR(f_c)2）对g_c(t)进行拉普拉斯变换，得到Gc(s)=∫-∞∞gc(t)e-stdt]]>=12∫0∞ti-1e-2πbct[ej2πfct+e-j2πfct]e-stdt]]>s是拉式变换复变量，j为虚数单位；3）为简化公式，令参数等效带宽b＝2πb_c,等效频率ω＝2πf_c，得到伽马通滤波器冲激响应的拉氏变换G_c(s)Gc(s)=12[3!(s+b-jω)i+3!(s+b+jω)i]]]>4）将G_c(s)转换为Z变换G_c(z)形式，再反变换得到伽马通滤波器的离散冲激响应g_c(n)，gc(n)=12πj∫Gc(z)zn-1dz]]>n为信号数字域时间，Z为Z变换变量；5）将语音信号与g_c(n)卷积后得到伽马通滤波器的滤波输出h(c,n)；6）对h(c,n)进行响度变换，得到听觉特征GF(c,n)；GF(c,n)=h(c,n)3]]>（三）对伽马通滤波器的滤波输出h(c,n)采用中级听觉形式表示；（1）自相关图谱A(c,m,τ)，在时间帧m上，第c个通道在延时为τ的自相关A(c,m,τ)为A(c,m,τ)=1NcΣn=0Nc-1h(c,mT-n)h(c,mT-n-τ)]]>其中，h是听觉外周模型的输出，T是帧间距离，对应于10ms，N_c为自相关对应窗长的点数，其中窗长取帧长度20ms和4/f_c之间的较大值，f_c为伽马通滤波器对应通道的中心频率，延迟τ的取值范围是[0，12.5ms]，对应于伽马通滤波器的中心频率；（2）互相关图谱为其中，为A(c,m,τ)的归一化函数，L对应于最大时延12.5ms，互相关图谱表明两个是否属于同一声源；（3）和相关图谱用于强化周期性的信号在频段上A(c,m,τ)与基音相关的结构，在时间帧m和延迟τ上的和相关图谱为s(m,τ)=ΣcA(c,m,τ)]]>（4）在时间帧m，第c个通道在延时为τ的包络自相关图谱为A_E(c,m,τ)为AE(c,m,τ)=1NcΣn=0Nc-1hE(c,mT-n)hE(c,mT-n-τ)]]>其中，h(c,n)即为h(c,n)的包络，具体计算过程如下：1）对h(c,n)进行半波整流；2）利用带通滤波器滤除直流成分和基频成分以外所有的谐波。对于每五帧用参数相同的滤波器，通带为止带为和其中是这五帧估计的基频的平均值，滤波器中使用kaiser窗函数；3）对滤波输出的信号r(c,n)进行希尔伯特变换，得到h(c,n)的包络h_E(c,n)；（5）包络互相关图谱计算公式为其中，为A_E(c,m,τ)归一化自相关函数，C_E(c,m)可以体现两个相邻频段AM速率的相似度；（四）低频区分离具体过程如下：（1）利用A(c,m,τ)计算s(m,τ)，s(m,τ)在时间帧m上最大值(在τ∈[2ms,12.5ms]条件下)所对应的时延τ_D(m)即为此时间帧的主基音周期；（2）选择A(c,m,0)＞θ_A.^2和C(c,m)＞θ_c的T-F单元，标记值为1，θ_A为能量阈值，θ_c为互相关阈值，将相邻单元：相同频段上相邻的单元，或者相同时间帧上的相邻的单元组合成段，根据时间连续性原则，去掉持续时间小于50ms的分段；（3）时频单元隶属于目标语音的隶属度函数为U(A,Ratio,τ_s(m))，隶属值计算公式为：其中：Ratio=A(c,m,τS(m))A(c,m,τP(c,m))]]>diff(τs(m),τs(m+q))=|τS(m)-τS(m+q)|min(τS(m),τS(m+q))]]>τ_min＝min(τ_S(m),τ_S(m+q))τ_max＝max(τ_S(m),τ_S(m+q))式中，τ_P(c,m)是在可信基音范围[2ms,12.5ms]内A(c,m,τ)取最大值时所对应的时延；τ_s(m+q)为与时间帧m相邻时间帧(q=-1时为前一帧，q=1为后一帧)，diff(τ_s(m),τ_s(m+q))主要用于计算相邻两帧间基音的差异；（4）判断先后两次得到的隶属值计算结果差异是否小于2%，若小于2%则转至（6），否则转至（5）；（5）保留目标语音主导的单元并组成分段，利用目标主导分段中隶属值等于1的单元，重新估计基音周期，然后转至（3）；（6）保留分段中多余一半以上时频单元隶属值大于0的分段，并组合成前景流，其余时频单元组合成背景流；（7）利用下面两个约束条件验证提取基音的可靠性，对于不可靠的基音周期利用线性插值，得到时间连续的基音曲线，约束条件为：1）根据下式判断某一时频单元自身的周期是否与估计的基音周期时频单元一致；A(c,m,τS(m))A(c,m,τP(c,m))>θP]]>其中，θ_p生理阈值，如果估计的基音周期是可信的，那么前景流中在相应时间帧上的时频单元至少有一半的单元应该与此基音相符；2）可信的基音周期相邻两帧间的差异应该小于20%；（8）计算每个时频单元的Ratio值，将分段中有一半以上的单元的Ratio值大于θ_p的段，组合成前景流剩余的单元组合成背景流得到低频区的分离结果；（五）高频区分离具体过程如下：（1）求取归一化的滤波整流信号计算公式为：（2）利用指定周期为τ_S(m)的单正弦信号，建立与时频单元相应的标准化信号；（3）通过下式比较AM速率和估计的基音周期；式中，φ为相位，φ_cm为上式取最小值时对应φ的值，f_s为语音信号抽样频率；（4）令上式中平方误差估偏移为0，就可得到在[0,2π)范围内，上式φ_cm有两个解，取令平方误差最小的解为φ_cm值；（5）将满足下式的时频单元标记为目标；式中θ_AM为AM准则阈值；（6）将不属于但C_E＞θ_E的时频单元组合成段，θ_E为包络互相关阈值，根据语音的连续性，除去少于50ms的段，将剩下的符合条件的分段添加进新的前景流（7）为减少噪声影响，对前景流中的段做如下调整：1）如果一个目标语音分段的持续时间大于50ms，则将其留在中；2）如果一个噪声分段的持续时间大于50ms，则将其添加进中；3）将剩下的段移除并保留待进一步处理；4）对反复迭代计算，将其周围且在上述步骤3）中未处理的分段合并，余下的分段再次并入5）剩下的独立且不属于任何流的单元，如果其被标记为目标，且与前景流相邻，则将其添加进前景流，否则将其加入背景流，由此得到了最终的前景流和背景流（六）通过对应于声源中每个时频单元的权重恢复目标信号，具体过程如下：（1）对每个滤波器的输出进行时间反转，消除交叉频段上的相位误差；（2）将反转后信号经过伽马通滤波器处理；（3）对输出信号再次进行时间反转；（4）将经过相位校准滤波后的输出中每个时频单元乘以与时频掩码相应的权重，其中中时频单元的二进制掩码值为1，设置为高权重，中时频单元的二进制掩码值为0，设置为低权重；（5）对所有频段乘以权重后的输出进行求和，得到分离后的两个信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310206373.X/，转载请声明来源钻瓜专利网。

上一篇：PTFE物料的自动混料机
下一篇：一种粉末涂料胶化时间测定仪搅拌装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模糊隶属函数的语音分离方法有效

专利文献下载