[发明专利]一种基于拼接特征的语种识别方法有效
申请号: | 202010244083.4 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111599344B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 刘俊南;江海;王化;刘文龙 | 申请(专利权)人: | 因诺微科技(天津)有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300392 天津市滨海新区华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼接 特征 语种 识别 方法 | ||
1.一种基于拼接特征的语种识别方法,其特征在于,该方法包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征,上下文扩展声学特征的拼接的具体处理包括:各帧声学特征、与对应的前T_l后T_r帧特征进行拼接得到维度为(T_l+T_r+1)*F的上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR维度M,选择维度大者进行PCA降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤7,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量m;
然后每段语音的语音拼接特征使用MAP adaptation方法对GMM-UBM模型进行线性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μk,δk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAPadaptation的计算公式如下:
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量;
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢量,m表示均值超矢量,T表示全差异子空间矩阵,通过训练得到,ω表示i-vector特征向量;
步骤8,使用归一化公式,以i-vector特征为目标对时长特征进行归一化,进行拼接得到t-vector特征,然后进行LDA降维,得到lda-vector特征;
步骤9,将lda-vector特征输入到训练好的分类器中,获得输入语音帧序列的语种标签,分类器训练过程具体描述如下:
以全部训练数据的lda-vector为训练输入,以对应的语种标签为输出,训练机器学习分类器。
2.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述底层声学特征为MFCC特征、FilterBank特征和PLP特征中的任意一种。
3.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述音素识别器为使用语音帧上下文扩展声学特征为输入,语音帧音素为标签进行训练得到的深度神经网络模型,中间包含一层瓶颈层,最后输出为音素概率,不限选用语种,使用大量标注了音素标签的语音数据进行训练得到。
4.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,通过所述PCA降维处理后得到的是声学特征LowF2和音素特征HighF2。
5.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,若该方法的识别语种数量为Ln,则LDA降维的目标维度为待识别语种数减一,即Ln-1。
6.如权利要求1所述的一种基于拼接特征的语种识别方法,其特征在于,所述分类器为SVM、RandomForest、XGBoost中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于因诺微科技(天津)有限公司,未经因诺微科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010244083.4/1.html,转载请声明来源钻瓜专利网。