[发明专利]一种基于自适应并行模型组合的鲁棒语音身份识别方法在审
申请号: | 201810035573.6 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108257606A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 葛洪伟;李聪;葛阳 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/20;G10L17/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音身份识别 测试环境 自适应 并行模型 身份识别 噪声环境 鲁棒性 鲁棒 语音 身份安全认证 安全领域 车载系统 模型参数 信息通过 训练环境 噪声信息 智能家居 识别率 匹配 | ||
1.一种基于自适应并行模型组合的鲁棒语音身份识别方法,其特征在于:首先对语音进行预处理操作,并提取语音特征,经过自适应的噪声估计得出倒谱域噪声参数,包括均值向量和协方差矩阵,然后对纯净语音倒谱特征训练成的GMM参数同噪声参数经倒谱提升逆变换和离散余弦反变换一同变换到对数谱域,接着通过指数变换变换到线性谱域,在线性谱域,对原始GMM模型参数和噪声参数进行加性合并,再经过对数变换将参数变换到对数谱域,进而再通过离散余弦变换和倒谱系数提升变换到倒谱域,得到补偿后的GMM模型参数,最后通过最大似然估计得到识别结果。
2.根据权利要求1所述的鲁棒语音身份识别方法,其特征包括如下步骤:
(1)对训练库的纯净语音提取倒谱特征,经过训练得到每个说话人的GMM参数,包括均值μx和方差∑x;
(2)获取噪声特征和噪声平均能量:
(2.1)对于输入的测试语音,进行分帧处理并提取倒谱特征,求取第i帧能量E(i),其中Xi(k)表示特征X第i帧的第k个元素,dim表示特征矢量维度;
(2.2)利用宽度为5的移动平均滤波器对帧能量序列进行平滑处理,得到平滑后的帧能量E′(i),然后从第一帧开始,对每一帧平滑后的帧能量与门限值TH进行比较,若E′(i)≤TH,则认为该帧为噪声帧,若E′(i)>TH,则认为语音帧开始,进而对该帧的前一帧进行位置标记,记为T′,并取前T′帧语音特征矢量作为噪声特征矢量;
(2.3)从中得到噪声平均能量E*,其中
(3)用一个单高斯模型对噪声特征矢量进行拟合,得到噪声特征均值μn和方差∑n;
(4)将纯净语音GMM均值、方差以及在倒谱域估计得到的噪声矢量均值和方差变换到线性谱域;
(5)将纯净语音和噪声的线性谱域参数在线性域进行非线性的相加,得到含噪语音GMM在线性谱域的均值和方差,其中,μx,m(i)和μy,m(i)分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型均值向量的第i个元素,和分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型在线性谱域协方差矩阵的第i行j列元素,G为常数,表示补偿增益因子;
(6)将含噪语音线性谱域均值和方差变换到倒谱域,得到补偿后的GMM模型参数;
(7)将得到的测试语音倒谱特征通过最大似然估计与调整后的所有说话人GMM参数进行相应计算,得到具有最大概率的说话人模型所对应的身份作为识别结果输出。
3.根据权利要求2所述的鲁棒语音身份识别方法,其特征在于,所述的步骤(4)按如下过程进行:
(4.1)将倒谱域均值与方差变换到对数谱域,计算方法如公式(1)和公式(2):
其中,上标lin表示线性谱域,上标ln表示对数谱域,C和C-1分别是离散余弦变换矩阵及其逆矩阵,L和L-1分别是倒谱系数提升矩阵及逆矩阵;
(4.2)将对数谱域均值与方差通过指数变换变换到线性谱域,计算方法如公式(3)和公式(4):
此时变量处于线性谱域,服从对数正态分布。
4.根据权利要求2或3所述的鲁棒语音身份识别方法,其特征在于,所述的步骤(6)按如下过程进行:
(6.1)将含噪语音线性谱域均值和方差变换到对数谱域,得到含噪GMM模型参数,计算方法如公式(5):
(6.2)将得到的对数谱域均值与方差通过离散余弦和倒谱系数提升变换到倒谱域,变换方法如公式(6):
(6.3)去掉冗余元素,对得到的倒谱域协方差矩阵只保留对角元素,
得到补偿后的GMM参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810035573.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多通道录音方法、装置及电子设备
- 下一篇:音频内容修正的方法及其智能装置