[发明专利]一种声纹识别的方法、装置以及存储介质在审
申请号: | 202210079352.5 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114446310A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 徐敏;肖龙源;李稀敏;叶志坚 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L15/04 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 赵薇 |
地址: | 351200 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 以及 存储 介质 | ||
1.一种声纹识别的方法,其特征在于,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:
S1,获取训练集,所述训练集包含多条音频数据;
S2,使用所述训练集对所述声纹识别模型进行训练,所述声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块;
所述步骤S2包括:
S21,提取所述训练集中包含的音频数据的音频特征;
S22,对所述音频特征进行切片操作,得到多个相同长度的音频切片特征;
S23,每次随机获取固定数量的所述音频切片特征,输入到所述声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型。
2.根据权利要求1所述的方法,其特征在于,所述神经网络为残差网络,所述处理模块为融合了通道压缩-激励SE子模块和频率压缩-激励fwSE子模块的SEfwSE模块;所述SE子模块用于压缩所述音频切片特征的时间维度和频率维度,激励所述音频切片特征的通道维度;所述fwSE子模块用于压缩所述音频切片特征的时间维度和通道维度,激励所述音频切片特征的频率维度。
3.根据权利要求2所述的方法,其特征在于,所述通道压缩-激励SE子模块的压缩函数Fsq和激励函数Fex的公式分别为:
Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z));
其中,xc为所述音频切片特征,T为所述音频切片特征的帧数,F为所述音频切片特征的维度,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对通道数进行压缩以减小计算量的第一线性层,W2表示将压缩后的通道数还原到压缩前大小的第二线性层。
4.根据权利要求2所述的方法,其特征在于,所述频率压缩-激励fwSE子模块的压缩函数Fsq和激励函数Fex的公式分别为:
Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z));
其中,xF为所述音频切片特征,T为所述音频切片特征的帧数,C为所述频率压缩-激励fwSE子模块的通道数,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对频率维度进行压缩以减小计算量的第三线性层,W2表示将压缩后的频率维度还原到压缩前大小的第四线性层。
5.根据权利要求1所述的方法,其特征在于,所述训练集还包括说话人信息,所述训练集中同一个说话人包含的所述音频数据的条数不少于8条,每一条所述音频数据的时长不小于2秒。
6.根据权利要求1所述的方法,其特征在于,采用分帧方式提取所述音频特征,帧长为25毫秒,帧移为10毫秒,所述音频特征为80维的FBank特征。
7.根据权利要求1所述的方法,其特征在于,所述切片操作的切片长度为200帧,切片重叠部分长度为20帧,所述固定数量为16。
8.根据权利要求2所述的方法,其特征在于,所述残差网络的层数为34层,所述残差网络的卷积层采用二维卷积,所述残差网络还包含注意力机制层。
9.根据权利要求1所述的方法,其特征在于,在所述步骤S21之前还包括,对所述训练集的至少部分音频数据进行数据增强操作,将所述数据增强后的音频数据加入到所述训练集中,所述数据增强操作包括以下至少一种:加噪或者加混响。
10.根据权利要求9所述的方法,其特征在于,采用在线方式进行所述数据增强操作,采用在线方式提取所述音频特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079352.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气压伸缩杆
- 下一篇:一种基于涡核探测的螺旋桨尾流修正相平均算法