[发明专利]一种声纹识别的方法、装置以及存储介质在审
申请号: | 202210079352.5 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114446310A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 徐敏;肖龙源;李稀敏;叶志坚 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L15/04 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 赵薇 |
地址: | 351200 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 以及 存储 介质 | ||
本发明涉及人工智能技术领域。本发明具体公开了一种声纹识别的方法,使用了通过如下步骤训练的声纹识别模型来进行声纹识别:获取训练集,训练集包含多条音频数据;提取训练集中包含的音频数据的音频特征;对音频特征进行切片操作,得到多个相同长度的音频切片特征;每次随机获取固定数量的音频切片特征,输入到声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型;其中,声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块。本发明提供的一种声纹识别的方法和装置,能够对声纹识别的通道维度和频率维度进行激励,并将激励结果进行相加,同时提升通道维度和频率维度的解析度,提升了声纹识别的效果。
技术领域
本发明涉及人工智能技术领域,特别涉及声纹识别技术领域,尤其涉及一种声纹识别的方法、装置以及存储介质。
背景技术
随着深度学习的发展,深度神经网络也被应用到声纹识别领域。目前主流的声纹识别系统一般分成两个部分,即前端embedding提取部分和后端损失函数计算及相似度计算部分。在训练阶段,采用前端embedding提取网络提取embedding,并输入到后端损失函数计算部分,通过后向传播更新网络参数;在测试阶段,将后端损失函数计算部分替换为相似度计算部分,通过前向传播提取embedding,计算相似度。前端embedding提取部分采用神经网络结构,为了加快训练速度,目前主要采用卷积算子进行堆叠,一维卷积和二维卷积均得到成功应用。为了降低训练难度,加深网络层数,通常将若干个卷积堆叠结构变成残差结构,最为成功的网络结构就是ResNet。
针对几乎所有网络结构都是将空间维度和通道维度混合到一起进行特征抽象的问题,文献1(Squeeze-and-ExcitationNetworks,SE)提出将空间维度和通道维度分离,控制空间维度(压缩),去提升通道维度的解析度(激励)的方法。对于语音来说,频率信息是非常重要的,对于一维卷积,会完全压缩掉频率信息,对于二维卷积,会和时间信息杂糅在一起,限制频率维度的解析度。针对这个问题,文献2(The IDLAB VoxCeleb SpeakerRecognition Challenge 2021 System Description)提出一种压缩通道信息和时间维度信息,提升频率维度解析度的方法(fwSE),为了进一步提升频率维度的解析度,作者还提出了一种可学习的频率位置编码(frequency positional encodings)方法。
上述方法虽然在一定程度上提升了声纹识别的效果,但通道压缩-激励和频率压缩-激励均单独进行使用。
发明内容
为了克服如上所述的技术问题,本发明提出一种声纹识别的方法,使用了通过如下技术方案训练的声纹识别模型来进行声纹识别:
S1,获取训练集,所述训练集包含多条音频数据;
S2,使用所述训练集对所述声纹识别模型进行训练,所述声纹识别模型基于神经网络实现,包含融合了至少两个压缩激励子模块的处理模块;
所述步骤S2包括:
S21,提取所述训练集中包含的音频数据的音频特征;
S22,对所述音频特征进行切片操作,得到多个相同长度的音频切片特征;
S23,每次随机获取固定数量的所述音频切片特征,输入到所述声纹识别模型进行训练,迭代多次训练,得到训练好的声纹识别模型。
进一步的,所述神经网络为残差网络,所述处理模块为融合了通道压缩-激励SE子模块和频率压缩-激励fwSE子模块的SEfwSE模块;所述SE子模块用于压缩所述音频切片特征的时间维度和频率维度,激励所述音频切片特征的通道维度;所述fwSE子模块用于压缩所述音频切片特征的时间维度和通道维度,激励所述音频切片特征的频率维度。
进一步的,所述通道压缩-激励SE子模块的压缩函数Fsq和激励函数Fex的公式分别为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079352.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气压伸缩杆
- 下一篇:一种基于涡核探测的螺旋桨尾流修正相平均算法