[发明专利]一种基于稀疏表示的短语音说话人识别方法有效
申请号: | 201310319824.0 | 申请日: | 2013-07-26 |
公开(公告)号: | CN103345923A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 程建;黎兰;苏靖峰;周圣云;李鸿升 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04 |
代理公司: | 成都华典专利事务所(普通合伙) 51223 | 代理人: | 徐丰;杨保刚 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 稀疏 表示 语音 说话 识别 方法 | ||
技术领域
本发明属于语音信号处理与模式识别技术领域,尤其短语音条件下的说话人识别技术,具体涉及一种基于稀疏表示的短语音说话人识别方法。
背景技术
说话人识别技术是指利用说话人的语音特征来辨别他们的身份,属于生物认证技术的范畴,广泛应用于司法鉴定、互联网安全,军事国防领域。说话人识别技术在实用化过程中还存在诸多问题,其中短语音条件下的训练识别问题受到人们广泛关注。
目前,国内外针对短语音问题普遍采用高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),最初采用似然比得分或是采用模板匹配的方法进行识别,后来又有人利用测试样本经过GMM-UBM模型自适应获得高斯超向量,并用支持向量机(Support Vector Machine,SVM)进行分类,取得了一定的成果。但是这些方法基本属于统计学习理论的范畴,因而需要大量的训练语音数据,同时对特征参数维数有一定的要求,高维的特征参数会严重影响识别效果。而采用高斯混合模型-通用背景模型-最大后验概率(Gaussian Mixture Model-Universal Background Model-Maximum A Posteriori,GMM-UBM-MAP)框架提取的高斯超向量维数较高(一般在一万维以上),并且在短语音说话人识别中可训练的语音数据非常有限,因此,统计学习理论在处理短语音问题时存在明显的不足。而且当训练和测试语音进一步变短时,经过自适应说话人模型与通用背景模型(Universal Background Model,UBM)模型差异较小,即使使用优秀的分类器SVM也不能取得很好的效果。
近年来,信号的稀疏表示逐渐成为国内外学术界的研究热点,它主要基于线性模型,对信号的稀疏性假设对高维空间数据同样适用。稀疏表示理论的核心思想是寻求信号在冗余字典的最佳线性表示,冗余字典由非正交的超完备函数基构成,而不是传统信号表示模型中的正交基函数,其表示系数尽可能稀疏,选择的字典要尽可能地符合原信号的结构。如今对于稀疏表示的研究主要集中于三个方面:(1)稀疏分解优化算法,如匹配追踪算法(Matching Pursuit,MP)、正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)以及同伦算法(Homotopy);(2)字典的设计,主要有最优方向法(Method of Optimal Directions,MOD),K-SVD方法;(3)稀疏表示的具体应用,如信号分解、去噪、信号编码、图像修复。
在标准的稀疏表示框架里,信号稀疏表示的主要目标尽可能地减小信号重构残差,并且尽量使用字典里较少的原子表示信号。与稀疏表示相比,诸如线性判别分析的识别算法更适合于识别任务,但是这些识别算法对信号的质量非常敏感,特别当信号含有噪声又或者数据不足的情况,识别效果不尽如人意。而稀疏表示通过信号重构的残差实现分类,可以较好的解决噪声以及数据不足问题。
发明内容
针对现有技术,本发明主要解决的技术问题是提供一种基于稀疏表示的短语音说话人识别方法,用以解决现有技术中在语义信息失配以及说话人模型不匹配时不能有效地提高识别的准确率的问题。
为解决上述问题,本发明采用如下技术方案:
一种基于稀疏表示的短语音说话人识别方法,其特征在于,包括以下步骤:
步骤一:对所有语音样本预处理,主要包括预加重、分帧加窗、端点检测,然后提取梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)及其一阶差分系数作为特征;
步骤二:由背景语音库训练高斯背景模型,并提取高斯超向量作为二次特征;
步骤三:将训练语音样本的高斯超向量排列在一起构成字典;
步骤四:利用稀疏求解算法求解表示系数,并重构信号,根据最小化残差确定识别结果。
更进一步地,所述步骤一具体包括以下步骤:①预加重、②分帧加窗、③端点检测(Voice Activity Detection,VAD)、④特征参数提取。
更进一步地,所述步骤二具体分解为以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310319824.0/2.html,转载请声明来源钻瓜专利网。