[发明专利]基于层叠双向时序池化的语种识别方法在审
申请号: | 202111032721.7 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113611285A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 陈晨;刘修言;蓝海乐;何勇军 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层叠 双向 时序 语种 识别 方法 | ||
本发明提出了一种基于层叠双向时序池化的语种识别方法,属于语种分类领域。本发明首先提取训练集和验证集音频文件的梅尔频率倒谱系数与基音参数,并切分成长度相同的片段,利用训练集段级特征训练残差‑双向长短时记忆神经网络,然后使用训练好的神经网络提取训练数据的高级时序特征,将高级时序特征进行非线性变换后,再对非线性特征进行双向时序池化。本发明可高效、准确地编码神经网络的隐藏层序列,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
技术领域
本发明涉及音频特征表示方法,属于语种分类领域。
背景技术
近年来,随着智能技术的发展与全球化进程的不断推进,人们在各个地区的来往和贸易越来越密切,人们对于跨越语言的交流需求也日益增长。作为语音前端处理过程中的重要环节与为未来人机交互的重要接口,语种识别的准确率和效率,对于智能系统的发展具有重大的影响并且具有重大的科研价值和实用价值。
目前世界上已知现存人类语言大约7139种,分布在142个不同的语系中,依据人类分辨语言的过程来分析,人类并不需要精通多门语言,便能够对数种语言的种类进行判断。这些有效判断往往需要依赖于某层区分性特征:如韵律特征、基本声学特征、音素特征、词汇和语法等。
时序变化信息作为能够描述区分特征的重要依据,其建模方式直接影响语种识别系统的准确率和效率。传统的语种后端建模方式主要有:高斯混合模型-通用背景模型(GMM-UBM)、隐马尔科夫模型(HMM)、广义线性区分-支持向量机模型(GLDS-SVM)等。近年来,基于底层声学特征的深度学习模型方法,得到极大的发展:其对于局部特征的深度抽象能力,可提取更鲁棒的空间特征。但深度神经网络(DNN)、卷积神经网络(CNN)、延时神经网络(TDNN)等作为特征提取器,无法捕捉长时间序列之间的时序依赖关系、导致时序信息丢失。传统循环神经网络(RNN)作为池化编码层,虽然可以有效解决短序列编码问题,但对于长序列却会引发梯度消失和爆炸。长短时记忆网络(LSTM/BILSTM)虽然可以有效缓解这一问题,但现有的时序方法只能够获取时序末端的隐藏层编码,不可避免地忽略了隐藏层之间重要的时序信息。
针对以上的问题,提出基于层叠双向时序池化的语种识别方法,该方法可高效、准确地编码隐藏层序列的时序特征,从而获取音频的高阶动态信息,降低语种识别系统的错误率。
发明内容
本发明的目的是为了解决语音信号的时序动态编码问题,并降低语种识别系统的错误率,进而提出了一种基于层叠双向时序池化的语种识别方法。
本发明为解决上述技术问题采取的技术方案是:一种基于层叠双向时序池化的语种识别方法,该方法包括以下步骤:
步骤1、对训练集与验证集中所有语音进行预处理并提取梅尔频率倒谱系数(MFCC)和基音(PITCH)参数,作为前端特征。
步骤2、将步骤1对应的训练集和验证集的前端特征,截取成长度相同的段级特征,作为残差-双向长短时记忆神经网络的训练样本和验证样本数据集合。
步骤3、用步骤2中的训练样本数据集的段级特征批量训练残差-双向长短时记忆神经网络,然后将训练得到的神经网络作为高层时序特征提取器,提取高层时序特征前向表示与后向表示
步骤4、将步骤3得到的高层时序特征,经过非线性特征映射后,作为双向时序池化的输入,得到层叠双向时序池化特征。
步骤5、将步骤4的层叠双向时序池化特征,经特征正则化后,由逻辑回归(LR)分类器进行评分。
进一步地,步骤1中所述的梅尔频率倒谱系数的计算步骤分别是分帧、预处理、短时傅里叶变换、频谱平方、能量谱梅尔滤波、对数运算、离散余弦。
步骤1中所述的基音参数的计算步骤分别为,首先对于音频文件下采样,再对下采样的音频计算归一化互相关系数函数,对相关处最大值进行记录、在上述最大值处选取候选点集合、在候选点集合中使用动态规划算法选取最佳候选点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111032721.7/2.html,转载请声明来源钻瓜专利网。