[发明专利]一种面向智能移动设备的声纹识别方法有效

专利信息
申请号: 201410601905.4 申请日: 2014-10-31
公开(公告)号: CN104464738B 公开(公告)日: 2018-01-02
发明(设计)人: 牛建伟;刘闯;王磊;王博伟 申请(专利权)人: 北京航空航天大学
主分类号: G10L17/02 分类号: G10L17/02;G10L17/04
代理公司: 北京永创新实专利事务所11121 代理人: 赵文颖
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 智能 移动 设备 声纹 识别 方法
【说明书】:

技术领域

发明属于声纹识别领域,具体涉及一种面向智能移动设备的声纹识别方法。

背景技术

声纹识别(也称说话人识别)技术是一项根据语音波形中反映说话人生理和行为特征的语音参数,来识别待测语音话者身份的技术。对声纹识别的研究始于20世纪30年代,早期的工作主要集中在用人耳进行听辨语音的实验和探讨听音识别的可能性方面。随着电子技术和计算机技术的发展,通过机器自动识别人的语音成为可能。Bell实验室的Pruzansky提出了一种基于模式匹配和概率统计方差分析的声纹识别方法,从而引起信号处理领域许多学者的注意,形成了说话人识别研究的一个热潮。这期间主要工作集中在各种识别参数的提取、选择和实验上。20世纪70年代至今,声纹识别的研究重点主要在对各种声学特征参数的线性或非线性处理以及新的模式匹配方法上。

声纹识别技术有着十分广阔的应用前景:在刑侦领域,可以用于协助确认犯罪嫌疑人信息;在银行等重要部门的安全系统中,可以用于身份核查的一种手段;在日常活动中,可以用于个人身份认证,如声纹锁、声纹门禁系统等。与其它采用同样采用人体生物特征的识别技术(如指纹识别技术、人脸识别技术等)相比,声纹识别显得更加直接友好,同时也更不容易被模仿。

声纹识别的研究自其诞生以来就获得了较为广泛的关注,同时也取得了很大的成果。九十年代,D.Reynolds首次将高斯混合模型(Gaussian Mixture Model,GMM)应用到声纹识别领域,并取得了很明显的效果。作为生成性模型(Generative Model)的代表,GMM以其简单灵活和较好的鲁棒性,迅速成为当今与文本无关的说话人识别的主流技术,将说话人识别技术带到了一个新的阶段。此外,区分性模型(Discriminative Model)如人工神经网络(Artificial Neural Networks,ANNs)、支持向量机(Support Vector Machine,SVM)在说话人识别中也有不错的表现。进入21世纪以来,D.Reynolds在说话人确认任务中提出了UBM-MAP(Universal Background Model,Maximum a Posteriori)模型,为说话人识别从实验室走向实用做出了重要贡献。与此同时,各种新的说话人识别技术也层出不穷,如图匹配方法(Graph Matching)、SVM与GMM结合、以及针对信道失配问题的说话人模型合成技术(Speaker Model Synthesis,SMS)等。近年来,超矢量(Supervector)技术成为说话人识别新的研究热点和发展方向。随着深度学习(Deep Learning)的兴起,面向说话人识别的深度学习算法也取得了较大的进展。

但上述方法大都着眼于提高说话人识别系统的识别精度,所有这些识别算法计算复杂度都相对较高,难以直接应用在智能手机等计算资源有限的移动设备上。而目前常用的矢量量化(VQ)算法虽然计算复杂度比上述方法低,但同时算法识别的准确率也相对较低。所以,目前的声纹识别算法均不能很好地应用到实际的智能移动设备上。

发明内容

本发明针对目前现有的声纹识别技术在识别过程中计算复杂度过高、不适合直接应用在智能手机等计算资源相对有限的移动设备的问题,提出了一种面向智能移动设备的声纹识别方法。

一种面向智能移动设备的声纹识别方法,具体包括说话人模型训练和目标说话人识别两个阶段,具体为:

第一、说话人模型训练阶段;

第二、说话人辨认阶段。

本发明的优点与积极性在于:

(1)对自适应后的每个簇引入了权重的思想,并将其与每个人语音特征点的重要性相关联,权重越大,对应的语音特征点越重要;

(2)在说话人模型训练阶段取每个说话人的K个最明显的特征点自适应得到说话人的码本V,在识别阶段仅需将每帧语音的特征向量与说话人模型中的K个码字进行比较,相对传统的VQ-UBM模型而言,在很大程度上降低了识别过程的复杂度。K为常量,其取值与每个说话人的生理特征有关。实验表明,K>=10时能取得较好的识别效果。

附图说明

图1为本发明的声纹识别算法与GMM和VQ-UBM算法在K=16、采用16维特征向量时的识别准确率对比示意图;

图2为本发明的声纹识别算法与GMM和VQ-UBM算法在K=16、采用12维特征向量时的识别准确率对比示意图;

图3为本发明的声纹识别算法与GMM和VQ-UBM算法在K=12、采用16维特征向量时的识别准确率对比示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410601905.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top