[发明专利]一种基于共有鉴别性子空间映射的语种识别方法及装置有效
申请号: | 201210587263.8 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103077709A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 周若华;颜永红;王宪亮;刘建 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共有 鉴别 性子 空间 映射 语种 识别 方法 装置 | ||
技术领域
本发明涉及语种识别领域,尤其涉及一种基于共有鉴别性子空间映射的语种识别方法及装置。
背景技术
语种识别技术的目的在于日后能够制造一种能够在一定程度上模仿人的思维对语种进行自动辨识的机器。换言之,就是从语音信号中提取出各语种的差异信息,并以此作为依据对语种进行识别。在实际应用中,由于环境噪声以及信道干扰等的影响,使识别性能急剧下降,对识别鲁棒性提出了较大的挑战。因此,如何提高语种识别的鲁棒性,减弱或者去除语音信号中的环境噪声与信道干扰等的负面影响,是当前语种识别研究的一个热点。
高斯混合模型-支持向量机(GMM-SVM)的方法通过将高斯超向量的思想引入语种识别,在语种识别中得到了成功的应用。实验表明,高斯超向量可以有效表征一段语音数据。但是,由于高斯超向量具有较高的维数,在语种种类比较多,数据量大的情况下可能会遇到机器内存不足,支持向量机模型训练速度慢甚至训练不出的情况。因此,对高斯超向量寻找有效的降维方法是当前研究的重点。
发明内容
本发明的目的是提供一种能够克服至少上述缺陷之一的基于共有鉴别性子空间映射的语种识别方法及装置。
在本发明的第一方面,提供了一种基于共有鉴别性子空间映射的语种识别方法,包括:提取一个语种的多个语音数据的语音特征;根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。
在本发明的第二方面,提供了一种基于共有鉴别性子空间映射的语种识别装置,包括:特征提取模块,用于提取一个语种的多个语音数据的语音特征;高斯超向量获取模块,用于根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;共有鉴别性子空间映射模块,用于将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及识别模块,用于分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。
本发明通过将高维的高斯超向量映射到较低维的子空间,然后对低维向量训练模型并打分,从而对测试语音进行识别。相比于直接对高斯超向量进行建模,本发明的语种识别方法由于其低维和鉴别性,训练速度更快,识别性能有了明显提高。另外,减少部分语种的训练数据求子空间,其识别性能并不会明显下降。
本发明的系统有效利用了高斯超向量所携带的语种信息,通过对超向量降维,去除了超向量中的冗余信息,充分保留了可以代表语音的成分。传统方法对高斯超向量直接SVM建模,由于训练数据大,向量维数高,建模速度慢,甚至会出现长时间无法训出SVM的情况,如果直接用cosine建模,虽然模型训练速度加快,但识别性能不高。共有鉴别性子空间映射的方法,不仅对高斯超向量进行降维,使SVM训练速度更快,而且由于该方法对各语种间的共有向量进行拼接组成共有子空间,既有不同语种间的共同成分,又提高了各语种间的区分能力。
附图说明
图1是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的流程图;
图2是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的训练阶段的流程图;
图3是根据本发明实施例的基于共有鉴别性子空间映射的语种识别装置的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
因此,本发明的目的在于提供一种基于共有鉴别性子空间映射的语种识别方法,该方法通过寻找各语种共有的具有鉴别性的子空间,将高维的高斯超向量映射到低维子空间,用映射后得到的低维的高斯超向量训练SVM模型,不仅加快了模型训练速度,而且还提高了语种识别的性能。
图1是根据本发明实施例的基于共有鉴别性子空间映射的语种识别方法的流程图。
在步骤101,提取一个语种的多个语音数据的移位差分美尔倒谱MSDC特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210587263.8/2.html,转载请声明来源钻瓜专利网。