[发明专利]一种会议场景小样本条件下的声纹识别方法在审
申请号: | 202011038136.3 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112259107A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 张晖;赵梦;赵海涛;孙雁飞;朱洪波 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/16;G10L17/02;G10L25/24 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 会议 场景 样本 条件下 声纹 识别 方法 | ||
1.一种会议场景小样本条件下的声纹识别方法,其特征在于,包括以下步骤:
(1)对采集到的说话人语音进行预处理,提取梅尔频率倒谱系数及其一阶差分系数和高斯频率倒谱系数及其一阶差分系数共振峰;
(2)利用HMM-UBM对语音信号进行时序建模,使用RVM学习得到每位说话人语音的分类信息;
(3)通过对待识别人建立HMM模型,并将RVM作为分类器进行判决决策得到分类结果。
2.根据权利要求1所述的会议场景小样本条件下的声纹识别方法,其特征在于,所述步骤(1)包括以下步骤:
(11)对语音信息进行采样量化、DFT操作后通过Mel频率滤波器组,然后取对数,DCT求倒谱得到MFCC参数,并求得其一阶差分倒谱系数;
(12)对语音信号进行快速傅里叶变换,取绝对值后通过Gammatone滤波器组,取对数后进行离散傅里叶变换求得GFCC参数,并求得其一阶差分倒谱系数;
(13)混合特征参数,将MFCC、ΔMFCC、GFCC、ΔGFCC作为混合特征参数;
(14)采用线性判别分析LDA进行特征转换,实现数据降维,使新特征更具区分性。
3.根据权利要求1所述的会议场景小样本条件下的声纹识别方法,其特征在于,步骤(2)所述的时序建模过程如下:
采用HMM来对相关性进行建模,同时采用全局高斯混合模型作为UBM表达说话人声道特征在训练样本中的分布概率,并自适应时更新该参数,更新过程如下:
设注册话者的输入特征矢量为{xi|i=1,2,...,t},计算其在所有训练样本中的概率分布,若话者对应第i个训练样本,则其概率分布为:
其中,pi(xi)为第i个训练样本的密度函数,ωi为第i个训练样本的权重系数,pr(i|xi)为第i个训练样本的后验概率,表示在测试语音的特征矢量为xi的条件下,测试语音对应第i个训练语音的概率;
利用pr(i|xi)和均值向量进行从分统计,统计公式为:
通过所有训练数据产生新的均值统计量,更新UBM第i个混合分量的均值矢量得到第i个分量的HMM-UBM模型,如下所示:
其中,为第i个分量的HMM-UBM模型,Ei(x)为第i个训练语音的统计公式。
4.根据权利要求1所述的会议场景小样本条件下的声纹识别方法,其特征在于,所述步骤(2)包括以下步骤:
(21)作为输入序列,训练得到HMM-UBM模型后计算每位注册说话人语音与训练语音的匹配得分,归一化后组合成一个特征向量;每条注册语音对其他语音的匹配得分,计算公式如下:
Ot0-ik(Xt0)=log(Xt0|λik)-log(Xt0|λUBM)
其中,Xt0为训练样本中第t位说话人注册语音的HMM特征序列,λik为训练样本中的第i位说话人第k条语音的HMM-UBM特征序列,λUBM为背景模型的特征序列;对匹配得分进行归一化:
将每条注册语音归一化的数据组成向量V,对第t位说话人,其注册语音的特征向量为Vt0={Scoret0-00,Scoret0-01,…,Scoret0-n9};
(22)将每位注册说话人的特征向量提供给RVM训练,得到语音分类信息,即RVM分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011038136.3/1.html,转载请声明来源钻瓜专利网。