[发明专利]基于基音周期混合特征参数的声纹识别方法有效
申请号: | 201510268390.5 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104900235B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 李勇明;谢文宾;王品;刘玉川;徐莎 | 申请(专利权)人: | 重庆大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04 |
代理公司: | 重庆为信知识产权代理事务所(普通合伙) 50216 | 代理人: | 陈千 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于基音周期混合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取基音周期、LPCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组合成多维特征向量、采用离散二进制粒子群优化算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM‑UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM‑UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。 | ||
搜索关键词: | 基于 基音 周期 混合 特征 参数 声纹 识别 方法 | ||
【主权项】:
1.一种基于基音周期组合特征参数的声纹识别方法,其特征在于,包括如下步骤:S1:语音信号的采集输入;S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;S3:语音信号组合特征参数提取:提取基音周期、LPCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组合成多维特征向量,其中:LPCC为线性预测倒谱系数,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;S4:利用离散二进制粒子群优化算法对步骤S3中的多维特征向量进行筛选,将GMM‑UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM‑UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;S5:使用GMM‑UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到通用背景模型UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;S6:提取经粒子群优化算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM‑UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人;在步骤S4所述的离散二进制粒子群优化算法中,每个粒子的适应度按照以下方式计算:
其中函数:
Ai表示多维特征向量中的第i维参量,Aj表示多维特征向量中的第j维参量,C是说话人的类别,i和j遍历于多维特征向量中的所有维数,H1(Aj)表示确定C之前Aj的熵,H1(C)表示确定Aj之前C的熵,H1(Aj|C)表示确定C之后Aj的熵,H2(Ai)表示确定Aj之前Ai的熵,H2(Aj)表示确定Ai之前Aj的熵,H2(Ai|Aj)表示确定Aj之后Ai的熵;所述基音周期特征参数提取时,以m/N为步长对语音帧抽样,同时以生成在[1,2]之间的随机数作为抽样点值的倍数矩阵K相乘,获得新的语音帧,然后设定两个备选基音周期之间的路径转移权值为:
然后采用遗传算法,使得两个备选基音周期之间的路径转移权值作为适应度值,通过不断的改变倍数矩阵K的值,使得适应度值最大,然后获得该语音帧信号对应的峰值大小为R(τ),然后获得基音周期T0;其中m为获得的语音帧的点数,N为语音帧个数,R1(τi)为第一个备选基音周期在第i个点的自相关函数峰值,R2(τj)为第二个备选基音周期在第j个点的自相关函数峰值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510268390.5/,转载请声明来源钻瓜专利网。
- 上一篇:永磁同步电机启动机构
- 下一篇:用于电机的功率接口单元