[发明专利]基于虚拟仪器技术的说话人VQ-SVM并行识别系统无效
申请号: | 201210008213.X | 申请日: | 2012-01-12 |
公开(公告)号: | CN102543075A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 刘祥楼;吴香艳;张明;姜继玉;刘昭廷 | 申请(专利权)人: | 东北石油大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L15/28 |
代理公司: | 哈尔滨东方专利事务所 23118 | 代理人: | 曹爱华 |
地址: | 163319 黑龙江省*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 虚拟仪器 技术 说话 vq svm 并行 识别 系统 | ||
一、 技术领域:
本发明涉及的是信号处理和模式识别领域,具体涉及的是基于虚拟仪器技术的说话人VQ-SVM并行识别系统。
二、背景技术:
说话人识别是通过分析说话人的语音特征达到识别出说话人身份的目的。说话人识别方法主要包括矢量量化方法、概率统计方法、判别分类器方法等。按说话人识别系统构成原理,说话人识别主要包括训练和识别两个阶段如图1所示。首先获取原始语音信号,再经过预处理得到干净的语音信号,然后提取语音特征参数之后再通过特定的方法实现说话人训练与识别。其说话人模型通常采用数据库存储大量按特定算法处理后的语音特征样本,而待识别语音经过预处理和特征提取后与数据库中的样本集进行匹配计算后实现判别。
任何单一方法既有优势也有局限,目前研究的较多的是将两种或两种以上方法结合在一起的混合识别方法。VQ技术是一种数据压缩和编码技术;SVM是基于统计理论的机器学习方法。这两种方法具有互补性,矢量量化(VQ)方法的优点是大样本分类特性较发好,模型数量少,训练时间短,识别响应较快,缺点是不能解决非线性问题,抗噪性能差;支持向量机(SVM)方法的优点是小样本分类较好,在解决非线性及高维模式识别问题中表现出特有的优势,缺点是训练算法复杂且训练速度慢,难以处理大样本数据。虽然曾有VQ-SVM两种方法混合进行说话人识别,但各类运算通常都是在MATLAB平台上实现的。因此,若用多种不同方法也只能采用串行方式进行。同样,现有的VQ-SVM两种方法混合进行说话人识别也同样是先用一种方法进行初次识别再用另一种方法进行二次识别的所谓串行识别。不难发现这种串行识别方法的最大弱点是即占用机器资源又浪费识别时间。
三、发明内容:
本发明的目的是提供基于虚拟仪器技术的说话人VQ-SVM并行识别系统,它用于解决现有的VQ-SVM两种方法混合进行说话人识别即占用机器资源又浪费识别时间的问题。
本发明解决其技术问题所采用的技术方案是:这种基于虚拟仪器技术的说话人VQ-SVM并行识别系统包括语音预处理单元、特征提取单元、说话人模型单元、识别单元、LabVIEW虚拟仪器平台,在虚拟仪器平台上通过LabVIEW子VI来实现将一个大程序分割成各小模块,将程序中涉及到的调用MATLAB节点的程序部分都编写成各子VI,通过调用这些子VI来实现系统的构建;
采用VQ算法,建立VQ模型 ,初始码本采用分裂法,选取特征向量的形心作为初始码书,在LabVIEW中通过调用MATLAB节点来实现说话人模型的建立及存储,算法公式如下:
总失真:
计算新码字:
式中:—集合中矢量的个数,—中所有矢量的质心;
相对失真改进量:
采用SVM算法,建立SVM模型 ,选用径向基核函数建立说话人的模型,其算法公式如下: , ;
识别单元中在结果判定部分通过说话人识别前面板上输出识别结果,当VQ、SVM两种识别方法的结果不一致时,只要有一种方法能识别就把该方法的识别结果作为正确结果输出;当两种方法的结果相同时,在说话人识别前面板上输出识别结果,正确识别用绿灯指示,不识别用红灯指示。
上述方案中特征提取单元采用美尔频率倒谱系数MFCC及其一阶差分作为识别的特征参数,通过在MATLAB7.0环境下编程实现特征参数的提取,具体参数设置为:帧长512,帧移256,滤波器的个数为12,采样频率44100Hz,并去除了首尾各两帧,因为这两帧的一阶差分为零,这样就得到了24维的语音特征向量。
有益效果:
1、本发明克服现有的VQ-SVM两种方法混合进行说话人识别时需要串行识别浪费时间的,提出将VQ和SVM两种方法集中在同一个平台上实现并行识别处理,从而在提高整个系统的识别效果的前提下节省识别时间。
2、本发明在虚拟仪器技术平台上将两种识别方法结合起来进行说话人并行识别。在小样本的情况下,SVM方法优于VQ方法;随着样本的增多,SVM的识别性能呈下降趋势,而VQ方法的识别性能有上升趋势,这样就充分利用了两种方法在样本数上所具有的互补性,从而可以提高系统的整体性能。
四、附图说明:
图1为说话人识别系统构成原理图;
图2为本发明的结构示意图;
图3为本发明中说话人识别前面板的示意图;
图4为LBG算法流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北石油大学,未经东北石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210008213.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生产多晶硅真空炉用水冷铜电极
- 下一篇:汽车起动型双极耳蓄电池