[发明专利]一种基于自适应并行模型组合的鲁棒语音身份识别方法在审

申请号：	201810035573.6	申请日：	2018-01-15
公开（公告）号：	CN108257606A	公开（公告）日：	2018-07-06
发明（设计）人：	葛洪伟;李聪;葛阳	申请（专利权）人：	江南大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L17/20;G10L17/00
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉
地址：	214122 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音身份识别测试环境自适应并行模型身份识别噪声环境鲁棒性鲁棒语音身份安全认证安全领域车载系统模型参数信息通过训练环境噪声信息智能家居识别率匹配
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自适应并行模型组合的鲁棒语音身份识别方法，其特征在于：首先对语音进行预处理操作，并提取语音特征，经过自适应的噪声估计得出倒谱域噪声参数，包括均值向量和协方差矩阵，然后对纯净语音倒谱特征训练成的GMM参数同噪声参数经倒谱提升逆变换和离散余弦反变换一同变换到对数谱域，接着通过指数变换变换到线性谱域，在线性谱域，对原始GMM模型参数和噪声参数进行加性合并，再经过对数变换将参数变换到对数谱域，进而再通过离散余弦变换和倒谱系数提升变换到倒谱域，得到补偿后的GMM模型参数，最后通过最大似然估计得到识别结果。

2.根据权利要求1所述的鲁棒语音身份识别方法，其特征包括如下步骤：

(1)对训练库的纯净语音提取倒谱特征，经过训练得到每个说话人的GMM参数，包括均值μ_x和方差∑_x；

(2)获取噪声特征和噪声平均能量：

(2.1)对于输入的测试语音，进行分帧处理并提取倒谱特征，求取第i帧能量E(i)，其中X_i(k)表示特征X第i帧的第k个元素，dim表示特征矢量维度；

(2.2)利用宽度为5的移动平均滤波器对帧能量序列进行平滑处理，得到平滑后的帧能量E′(i)，然后从第一帧开始，对每一帧平滑后的帧能量与门限值TH进行比较，若E′(i)≤TH，则认为该帧为噪声帧，若E′(i)＞TH，则认为语音帧开始，进而对该帧的前一帧进行位置标记，记为T′，并取前T′帧语音特征矢量作为噪声特征矢量；

(2.3)从中得到噪声平均能量E^*，其中

(3)用一个单高斯模型对噪声特征矢量进行拟合，得到噪声特征均值μ_n和方差∑_n；

(4)将纯净语音GMM均值、方差以及在倒谱域估计得到的噪声矢量均值和方差变换到线性谱域；

(5)将纯净语音和噪声的线性谱域参数在线性域进行非线性的相加，得到含噪语音GMM在线性谱域的均值和方差，其中，μ_x，m(i)和μ_y，m(i)分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型均值向量的第i个元素，和分别表示纯净语音和估计出的含噪语音GMM第m个高斯模型在线性谱域协方差矩阵的第i行j列元素，G为常数，表示补偿增益因子；

(6)将含噪语音线性谱域均值和方差变换到倒谱域，得到补偿后的GMM模型参数；

(7)将得到的测试语音倒谱特征通过最大似然估计与调整后的所有说话人GMM参数进行相应计算，得到具有最大概率的说话人模型所对应的身份作为识别结果输出。

3.根据权利要求2所述的鲁棒语音身份识别方法，其特征在于，所述的步骤(4)按如下过程进行：

(4.1)将倒谱域均值与方差变换到对数谱域,计算方法如公式(1)和公式(2)：

其中，上标lin表示线性谱域,上标ln表示对数谱域，C和C^-1分别是离散余弦变换矩阵及其逆矩阵，L和L^-1分别是倒谱系数提升矩阵及逆矩阵；

(4.2)将对数谱域均值与方差通过指数变换变换到线性谱域，计算方法如公式(3)和公式(4)：

此时变量处于线性谱域，服从对数正态分布。

4.根据权利要求2或3所述的鲁棒语音身份识别方法，其特征在于，所述的步骤(6)按如下过程进行：

(6.1)将含噪语音线性谱域均值和方差变换到对数谱域，得到含噪GMM模型参数，计算方法如公式(5)：

(6.2)将得到的对数谱域均值与方差通过离散余弦和倒谱系数提升变换到倒谱域，变换方法如公式(6)：

(6.3)去掉冗余元素，对得到的倒谱域协方差矩阵只保留对角元素，

得到补偿后的GMM参数。