[发明专利]基于层叠双向时序池化的语种识别方法在审
申请号: | 202111032721.7 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113611285A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 陈晨;刘修言;蓝海乐;何勇军 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层叠 双向 时序 语种 识别 方法 | ||
1.基于层叠双向时序池化的语种识别方法,其特征在于,包含前端特征提取、残差-双向长短时记忆神经网络模型训练、双向时序特征提取,测试语音评分,具体步骤如下:
所述前端特征提取包含步骤:
步骤1、对训练集与验证集中所有语音进行预处理并提取梅尔频率倒谱系数(MFCC)和基音(PITCH)参数,作为前端特征。
步骤2、将步骤1对应的训练集和验证集的前端特征,截取成长度相同的段级特征,作为残差-双向长短时记忆神经网络的训练样本和验证样本数据集合。
步骤3、用步骤2中的训练样本数据集的段级特征批量训练残差-双向长短时记忆神经网络,然后将训练得到的神经网络作为高层时序特征提取器,提取高层时序特征前向表示与后向表示
步骤4、将步骤3得到的高层时序特征,经过非线性特征映射后,作为双向时序池化的输入,得到层叠双向时序池化特征。
步骤5、将步骤4的层叠双向时序池化特征,经特征正则化后,由逻辑回归(LR)分类器进行评分。
进一步地,步骤1中所述的梅尔频率倒谱系数的计算步骤分别是分帧、预处理、短时傅里叶变换、频谱平方、能量谱梅尔滤波、对数运算、离散余弦。
步骤1中所述的基音参数的计算步骤分别为,首先对于音频文件下采样,再对下采样的音频计算归一化互相关系数函数,对相关处最大值进行记录、在上述最大值处选取候选点集合、在候选点集合中使用动态规划算法选取最佳候选点。
进一步地,步骤2中所述对训练数据集切割为固定长度的片段,对一句语音的前端特征,按任务最短语音段长度要求,按照其窗长和帧移设置切割成对应的长度。不足此长度的帧的语音段则丢弃。
进一步地,步骤3中所述对残差-双向长短时记忆神经网络的训练步骤分为,用步骤2中切割完成的特征训练神经网络,并保存网络参数,作为提取高层时序特征的网络参数;
步骤3中所述提取高层时序特征,具体步骤为:将训练集、测试集和注册集分别经过训练好的残差-双向长短时记忆神经网络,得到高层时序特征。
进一步地,步骤4中所述非线性变换定义为:
其对应海林格核函数为:
其中x+,x-,y+,若xi≥0,则xi+=xi,否则xi=0。若xi<0,则xi-=-xi,否则xi=0。y+、y-亦是。且
步骤4中所述双向时序池化包含前、后向时序池化,经前向、后向时序池化后的特征u均满足以下约束:
其中为在ti,tj时刻的hf或hb序列中元素的非线性时序特征。
式(3)中的线性参数u可由以下逐点排序学习定义:
g(vt,u)→t
则前向、后向时序池化均可定义为L2-loss支持向量回归形式:
其中[·]≥0=max{0,·},ε为不敏感系数,C为正则项系数。
为求解式(5),等价于解决如下对偶问题:
其中:
上式为核矩阵,Q中元素其中ti,tj=1,...,T。
对式(6)中α+,α-进行组合,可以得到以下二次规划形式:
其中I为单位矩阵,为时序向量。
求解式(8)得到单向时序池化特征u为:
且在最优处满足
定义层叠双向时序池化特征:
其中uf为前向时序池化特征,ub为后向时序池化特征。
具体地:
其中对应于残差网络输出特征的时序顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111032721.7/1.html,转载请声明来源钻瓜专利网。