[发明专利]一种多人语音混合中目标说话人估计方法及系统有效
申请号: | 201810610015.8 | 申请日: | 2018-06-13 |
公开(公告)号: | CN108766459B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 刘宏哲;张启坤 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/03;G10L25/21;G10L25/24 |
代理公司: | 北京驰纳智财知识产权代理事务所(普通合伙) 11367 | 代理人: | 谢亮 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人语 混合 目标 说话 估计 方法 系统 | ||
1.一种多人语音混合中目标说话人估计方法,包括使用麦克风阵列采集语音信号得到混合信号x,其特征在于,还包括以下步骤:
步骤1:使用FastICA算法进行多人混合语音分离,得到N个分离语音y;
步骤2:提取多个语音特征;
步骤3:进行语音特征归一化;步骤4:归一化的语音特征加权融合;融合构成各个人的语音特征矢量xn,其中,λ为对应的加权参数,为归一化的说话时长,为归一化的说话次数、为归一化的短时能量,为归一化的MFCC系数;
步骤5:使用高斯混合模型进行加权参数优化;
步骤6:使用期望最大化算法EM算法进行高斯混合模型估计;
步骤7:输出目标语音。
2.如权利要求1所述的多人语音混合中目标说话人估计方法,其特征在于:所述步骤1包括以下子步骤:
步骤11:对混合观测信号x中心化去均值,
其中,i=1.....n,n为实系数;
步骤12:白化处理去混合语音之间的相关性,
z=Vx=ED-1/2ETx
其中,V为白化矩阵,E为中心化数据的特征向量构成的正交矩阵,D为特征向量对应的特征值构成的对角矩阵,ET为E转置矩阵;
步骤13;随机生成初始解混矩阵w0,||w0||2=1;
步骤14:更新解混矩阵w,
其中,g(y)=y×exp(-y2/2),g′为g的导数;
步骤15:如果所述解混矩阵w收敛,则wn+1解混矩阵,停止迭代,反之重新执行步骤14继续迭代;
步骤16:得到N个分离语音信号y=[y1,y2,......yn],
3.如权利要求2所述的多人语音混合中目标说话人估计方法,其特征在于:判断所述解混矩阵w收敛的公式为|wn+1-wn|<ε,其中,ε为收敛门限。
4.如权利要求1所述的多人语音混合中目标说话人估计方法,其特征在于:所述语音特征包括每次说话时长Sn(L)、说话次数Sn(N)、短时能量En和MFCC系数Cn中至少一种。
5.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述每次说话时长Sn(L)是指检测语音段的起始时间和结束时间中间的时间长度。
6.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述说话次数Sn(N)是指每条语音中出现的分段语音的次数。
7.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述短时能量En是指语音信号的第n个采样点的短时能量。
8.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述MFCC系数Cn是指每个人语音的梅尔频率倒谱系数特征点。
9.如权利要求4所述的多人语音混合中目标说话人估计方法,其特征在于:所述步骤3为使用下面公式对所述语音特征进行归一化处理,
其中,表示归一化后的Sn(F)特征,Sn(F)是第n个说话人的某一个特征,Sn(Fmax)表示Sn(F)的最小值,Sn(Fmin)表示Sn(F)的最大值。
10.一种多人语音混合中目标说话人估计系统,包括用于进行多人混合语音分离的语音分离模块,其特征在于,还包括以下模块:
多语音特征融合模块:提取多个语音特征,特征归一化之后,进行加权参数融合,得到语音特征序列;融合构成各个人的语音特征矢量xn,其中,λ为对应的加权参数,为归一化的说话时长,为归一化的说话次数、为归一化的短时能量,为归一化的MFCC系数;
融合参数优化模块:用高斯混合模型对融合参数进行优化,通过期望最大化算法EM算法,估计出概率值最大的语音特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810610015.8/1.html,转载请声明来源钻瓜专利网。