[发明专利]一种基于词嵌入的LSTM网络声纹识别方法在审
申请号: | 201910642258.4 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110349588A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 闫河;罗成;李焕;董莺艳 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 胡逸然 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音片段 声纹识别 降维 嵌入 网络 嵌入的 快速傅里叶变换 分类信息 时间刻度 时序特征 特征提取 网络训练 准确率 捕捉 分类 身份 转化 | ||
1.一种基于词嵌入的LSTM网络声纹识别方法,其特征在于,包括以下步骤:
S1、获取待识别语音片段;
S2、通过快速傅里叶变换将待识别语音片段的时间刻度、频率和振幅转化,生成待识别语音片段的语谱图;
S3、将待识别语音片段的语谱图通过词嵌入处理进行降维后输入训练后的LSTM网络,得到待识别语音片段的身份分类信息。
2.如权利要求1所述的基于词嵌入的LSTM网络声纹识别方法,其特征在于,LSTM网络的训练方法包括如下步骤:
S200、获取语音片段训练集及语音片段测试集;
S201、通过快速傅里叶变换将语音片段训练集及语音片段测试集中每个语音片段的的时间刻度、频率和振幅转化,得到语谱图训练集及语谱图测试集;
S203、将语谱图训练集通过词嵌入处理进行降维后与声纹标签输入待训练的LSTM网络,对待训练的LSTM网络进行训练;
S204、将语谱图测试集通过词嵌入处理进行降维后输入训练后的LSTM网络,若输出的测试结果满足预设条件,则完成LSTM网络的训练,否则再次返回步骤S203再次进行训练,直到测试结果满足预设条件为止。
3.如权利要求2所述的基于词嵌入的LSTM网络声纹识别方法,其特征在于,若语谱图测试集的准确率大于或等于预设准确率,且测试时的损失函数值在预设阈值内,则判断测试结果满足预设条件,其中,基于以下公式计算准确率及损失函数值:
Loss=L(Y,P(Y|X)=-logP(Y|X)
ACC表示识别准确率,Loss表示损失函数值,n表示说话人样本总数;Pi表示第i个说话人样本的精确度;TPi、、FNi分别表示第i个说话人的声纹样本类别中正确分类的数目和错误分类的数目;Y表示类别正确的分类,P(Y|X)表示正确分类的概率。
4.如权利要求1所述的基于词嵌入的LSTM网络声纹识别方法,其特征在于,语图谱的生成方法包括:
S401、基于公式spreemp[j]=s[j]-α*s[j-1]对语音片段进行语音预加重处理,式中,spreemp[j]表示语音预加重处理后的语音片段中第j时刻的信号,s[j]表示语音预加重处理前的语音片段中第j时刻的高频信号,s[j-1]表示语音预加重处理前的语音片段中第j-1时刻的高频信号,α表示是固定设置的参数;
S402、将语音预加重处理后的语音片段进行交叠分段,保持帧与帧之间平滑过渡和其连续性;
S403、基于公式对每一帧信号进行加窗得到平稳短时信号,式中,w(n1)表示窗函数,n1表示帧长,N表示语音总帧长;
S404、对平稳短时信号进行快速傅里叶变换得到X(m,n1),在基于公式Y(m,n1)=X(m,n1)*X(m,n1)′得到周期图Y(m,n1),式中,m表示帧的个数,n1表示帧长,X(m,n1)表示快速傅里叶变换后的短时语音信号,X(m,n1)′表示语音信号矩阵的转置;
S405、对周期图Y(m,n1)取对数得到基于m和n1将时间刻度和频率刻度转换为P和Q,得到语谱图对应的RGB信息
S406、基于语谱图频率时间刻度以及对应的颜色信息得到语音片段的语图谱。
5.如权利要求1所述的基于词嵌入的LSTM网络声纹识别方法,其特征在于,将语图谱进行词嵌入降维的方法包括:
S501、基于语图谱的特征向量得到语图谱的词嵌入向量式(vc-o+1=Vxc-o+1,...,vc+o=Vxc+o),式中,V表示权重矩阵,xc-o+1表示第c-o+1个特征向量,xc+o表示第c+o个特征向量,vc-o+1表示第c-o+1个词嵌入向量,vc+o表示第c+o个词嵌入向量,x为独热编码向量即以独热编码的方式对向量进行统一处理,c表示中间向量的位置,o表示上下间距;
S502、基于公式将词嵌入向量取平均值,式中,表示词嵌入向量的上下间距为o时,中间位置c的平均值;
S503、生成得分向量式中,U表示输出时的词矩阵;
S504、基于公式得到概率分布形式,式中,表示语图谱的概率分布形式,softmax(z)表示z的分类函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910642258.4/1.html,转载请声明来源钻瓜专利网。