[发明专利]一种声纹识别的方法、装置以及存储介质在审

专利信息
申请号: 202210079352.5 申请日: 2022-01-24
公开(公告)号: CN114446310A 公开(公告)日: 2022-05-06
发明(设计)人: 徐敏;肖龙源;李稀敏;叶志坚 申请(专利权)人: 厦门快商通科技股份有限公司
主分类号: G10L17/04 分类号: G10L17/04;G10L17/18;G10L15/04
代理公司: 厦门市精诚新创知识产权代理有限公司 35218 代理人: 赵薇
地址: 351200 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 声纹 识别 方法 装置 以及 存储 介质
【权利要求书】:

1.一种声纹识别的方法,其特征在于,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:

S1,获取训练集,所述训练集包含多条音频数据;

S2,使用所述训练集对所述声纹识别模型进行训练,所述声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块;

所述步骤S2包括:

S21,提取所述训练集中包含的音频数据的音频特征;

S22,对所述音频特征进行切片操作,得到多个相同长度的音频切片特征;

S23,每次随机获取固定数量的所述音频切片特征,输入到所述声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型。

2.根据权利要求1所述的方法,其特征在于,所述神经网络为残差网络,所述处理模块为融合了通道压缩-激励SE子模块和频率压缩-激励fwSE子模块的SEfwSE模块;所述SE子模块用于压缩所述音频切片特征的时间维度和频率维度,激励所述音频切片特征的通道维度;所述fwSE子模块用于压缩所述音频切片特征的时间维度和通道维度,激励所述音频切片特征的频率维度。

3.根据权利要求2所述的方法,其特征在于,所述通道压缩-激励SE子模块的压缩函数Fsq和激励函数Fex的公式分别为:

Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z));

其中,xc为所述音频切片特征,T为所述音频切片特征的帧数,F为所述音频切片特征的维度,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对通道数进行压缩以减小计算量的第一线性层,W2表示将压缩后的通道数还原到压缩前大小的第二线性层。

4.根据权利要求2所述的方法,其特征在于,所述频率压缩-激励fwSE子模块的压缩函数Fsq和激励函数Fex的公式分别为:

Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z));

其中,xF为所述音频切片特征,T为所述音频切片特征的帧数,C为所述频率压缩-激励fwSE子模块的通道数,i为正整数,j为正整数,z为二维张量,W表示线性变换矩阵,δ表示ReLU激活函数,σ表示sigmoid函数,g表示中间函数,W1表示对频率维度进行压缩以减小计算量的第三线性层,W2表示将压缩后的频率维度还原到压缩前大小的第四线性层。

5.根据权利要求1所述的方法,其特征在于,所述训练集还包括说话人信息,所述训练集中同一个说话人包含的所述音频数据的条数不少于8条,每一条所述音频数据的时长不小于2秒。

6.根据权利要求1所述的方法,其特征在于,采用分帧方式提取所述音频特征,帧长为25毫秒,帧移为10毫秒,所述音频特征为80维的FBank特征。

7.根据权利要求1所述的方法,其特征在于,所述切片操作的切片长度为200帧,切片重叠部分长度为20帧,所述固定数量为16。

8.根据权利要求2所述的方法,其特征在于,所述残差网络的层数为34层,所述残差网络的卷积层采用二维卷积,所述残差网络还包含注意力机制层。

9.根据权利要求1所述的方法,其特征在于,在所述步骤S21之前还包括,对所述训练集的至少部分音频数据进行数据增强操作,将所述数据增强后的音频数据加入到所述训练集中,所述数据增强操作包括以下至少一种:加噪或者加混响。

10.根据权利要求9所述的方法,其特征在于,采用在线方式进行所述数据增强操作,采用在线方式提取所述音频特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210079352.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top