[发明专利]一种基于共有鉴别性子空间映射的语种识别方法及装置有效
申请号: | 201210587263.8 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103077709A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 周若华;颜永红;王宪亮;刘建 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 共有 鉴别 性子 空间 映射 语种 识别 方法 装置 | ||
1.一种基于共有鉴别性子空间映射的语种识别方法,包括:
提取一个语种的多个语音数据的语音特征;
根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;
将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及
分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。
2.根据权利要求1所述的方法,其中,所述根据所述语音特征得到所述多个语音数据的高斯超向量的步骤包括:
通过最大后验概率MAP从高斯混合模型GMM得到所述语音数据的高斯分布均值,所述GMM是预先用多个语种的语音数据建立的;以及
将所述高斯分布均值按顺序排列得到所述高斯超向量。
3.根据权利要求1所述的方法,其中,所述共有鉴别性子空间是通过下列步骤得到的:
提取多个语种的多个语音数据的语音特征;
根据所述语音特征得到每个语音数据的高斯超向量;
计算每个语种的高斯超向量均值;
根据所述高斯超向量得到每个语种的标准正交基;
将每个语种的高斯超向量均值分别映射到其他多个语种的标准正交基上,得到每个语种对应于其他语种的冗余向量;
根据所述冗余向量和每个语种的高斯超向量得到共有向量集;以及
根据所述共有向量集得到所述共有鉴别性子空间。
4.根据权利要求3所述的方法,其中,所述多个SVM模型的训练包括下列步骤:
将每个语音数据的高斯超向量映射到所述共有鉴别性子空间,得到与所述高斯超向量对应的低维向量;以及
用支持向量机SVM分类器训练所述低维向量,得到所述多个SVM模型。
5.根据权利要求3所述的方法,其中,所述根据所述MSDC特征得到每个语音数据的高斯超向量的步骤包括:
根据所述语音特征训练出高斯混合模型GMM;
通过最大后验概率MAP从所述GMM得到所述语音数据的高斯分布均值;
将所述高斯分布均值按顺序排列得到高斯超向量,每个语音数据对应一组高斯超向量。
6.根据权利要求3所述的方法,其中,所述根据所述高斯超向量得到每个语种的标准正交基的步骤包括:
将每个语音数据的高斯超向量分别减去其所属语种的高斯超向量均值得到多个差值向量,用所述多个差值向量构成所述语种的冗余空间;以及
对所述冗余空间中的多个差值向量进行斯密特正交,得到每个语种的标准正交基。
7.根据权利要求3所述的方法,其中,所述根据所述冗余向量和每个语种的高斯超向量得到共有向量集的步骤包括:
将每个语种的高斯超向量均值减去对应的冗余向量,得到每个语种对应于其他语种的共有向量;以及
将所述共有向量按列拼接得到共有向量集。
8.根据权利要求3所述的方法,其中,所述根据所述共有向量集得到所述共有鉴别性子空间的步骤包括:
分别将每个语种的共有向量减去共有向量集中所有共有向量的均值,将得到的向量按列拼接得到每个语种的共有子空间;以及
对所述共有子空间进行施密特正交得到所述共有鉴别性子空间。
9.根据权利要求1所述的方法,其中,所述语音特征是移位差分美尔倒谱MSDC特征。
10.一种基于共有鉴别性子空间映射的语种识别装置,包括:
特征提取模块,用于提取一个语种的多个语音数据的语音特征;
高斯超向量获取模块,用于根据所述语音特征得到所述多个语音数据的高斯超向量,其中,每个语音数据对应一组高斯超向量;
共有鉴别性子空间映射模块,用于将所述高斯超向量映射到共有鉴别性子空间,得到与所述高斯超向量对应的低维向量,其中,所述共有鉴别性子空间是预先用多个语种的语音数据建立的;以及
识别模块,用于分别计算所述低维向量在多个支持向量机SVM模型上的得分,根据多个得分识别出所述语种,其中,所述多个SVM模型是预先根据所述共有鉴别性子空间训练出来的,每个SVM模型对应一个语种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210587263.8/1.html,转载请声明来源钻瓜专利网。