[发明专利]一种声纹识别方法在审
申请号: | 201611231656.X | 申请日: | 2016-12-23 |
公开(公告)号: | CN108242239A | 公开(公告)日: | 2018-07-03 |
发明(设计)人: | 张学阳 | 申请(专利权)人: | 张学阳 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/12;G10L17/14;G10L25/24;G10L25/45;G10L25/78 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214000 江苏省无锡市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹识别 语音 人工智能领域 最优化算法 二次规划 方法识别 工厂机器 技术应用 建立模型 聚类迭代 模型训练 线性规划 训练模型 训练特征 银行安全 语音模型 语音识别 智能家居 复杂度 启发式 聚类 向量 一对一 加权 算法 引入 计算机 汽车 应用 | ||
本发明属于计算机和人工智能领域,特别涉及到通过声纹识别技术应用在机器上实现语音锁功能的一种语音方法。主要创新点在语音模型的建立过程和语音识别阶段这两个过程,在建立模型阶段,采用一对一SVM模型,降低了模型复杂度,引入序列最小最优化算法,采用二次规划与启发式的方法选取变量,以加快模型训练速度,在识别阶段,提出的算法采用k‑means与线性规划相结合的方式得出每个人的识别评分。当训练模型的训练特征向量个数R和训练人数P平方的乘机远远大于聚类迭代次数t时,SVM加权聚类识别方法识别速度有巨大提升。本发明可以应用于汽车,智能家居,工厂机器,银行安全等涉及到声纹识别技术的领域当中。
技术领域
本发明涉及到一种声纹识别技术的方法,并且包含人工智能,语音识别,生物特征识别等多个领域。
背景技术
声纹识别(Voiceprint Recognition)是指通过语音对人进行区分的一种生物技术,声纹识别也称为说话人识别,可以分为说话人确认(Speaker Verification,SV)和说话人辨认(Speaker Identification,SI)两个方面,说话人确认指给定语音来判断是否是这个人说的,属于“一对一”问题,而说话人辨认指给定语音来推断是哪个人所说,属于“一对多”问题。
声纹识别研究始于上个世纪60年代,随着计算机技术的不断进步和完善,声纹识别技术广泛应用于人工智能,信息安全,军事等领域。70年代,主要的代表方法为动态时间规整(Dynamic Time-warping,DTW)的模板匹配方法,随后一些线性预测方法相继被提出。80年代,一些著名的方法,比如梅尔倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征提取方法和基于概率模型的适量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)孕育而生。到了90年代,最主流的方法莫过于Reynolds提出的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal BackgroundModel,GMM-UBM)。
21世纪,随着SVM模型在各个领域的不断兴起,SVM模型逐渐应用于声纹识别系统中,从此将声纹识别系统推向了高潮,特别是高斯混合模型和支持向量机模型结合的SVM-GMM模型的提出,使SVM混合模型精确性更高。然而,SVM虽然能够很好的解决小样本学习问题,但随着训练模型样本数目的增多,模型的识别速度和训练速度受到很大的限制,本发明采用了加权聚类的识别方法来识别,通过k-means与线性规划结合的方式求出评分,试验表明,与传统的识别方法相比,识别人数和训练特征向量个数达到一定条件时,识别速率大幅度提升。
为了简化训练模型,本发明采用了一对一SVM模型,从而大大降低了模型复杂度。一般情况下还会应用核技巧,就是通过一个非线性变换将输入空间对应于一个特征空间,这样做的好处是变换到新的空间下,使原本非线性可分问题变成了线性可分问题。
为了求解方便一般会将原始问题转化为对偶问题求解
每个拉格朗日乘子αi对应一个样本点(xi,xj),K(xi,xj)表示核函数。分类决策函数为
通过求解参数和b*得到决策函数,在测试阶段将语音特征向量带入决策函数中,根据决策函数的结果就可以判断分类结果。
SVM问题可以转化为凸二次规划问题,对于小样本数据,一般凸二次规划问题有很多方法可以求得最优解,但是针对于大样本数据时训练模型速度较慢,因此本文采用SMO算求解SVM模型可以大大加快求解速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张学阳,未经张学阳许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611231656.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种音频文件生成方法及装置、终端设备
- 下一篇:复杂噪音下的声纹识别系统