[发明专利]一种声纹识别方法、装置、电子设备及存储介质有效

专利信息
申请号: 202110200815.4 申请日: 2021-02-23
公开(公告)号: CN112786057B 公开(公告)日: 2023-06-02
发明(设计)人: 杨奇;陈书楷 申请(专利权)人: 厦门熵基科技有限公司
主分类号: G10L17/02 分类号: G10L17/02;G10L17/18
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 郭帅
地址: 361000 福建省厦门*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 声纹 识别 方法 装置 电子设备 存储 介质
【权利要求书】:

1.一种声纹识别方法,其特征在于,包括:

获取语音信号,并从所述语音信号中获取语音片段;

提取所述语音片段的频谱图;

对所述频谱图进行周期变换,得到周期频谱;

将所述周期频谱变换为梅尔频谱,并基于所述梅尔频谱得到语谱图;

通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征;所述MobileAudioNet为在MobileFaceNets的卷积层块conv1和conv_23后各增加1个Inception模块,在conv_5后增加1个1阶HOA模块后生成;

所述Inception模块用于多尺度融合特征图,包括Base、1x1卷积层、3x3卷积层、Pool卷积层和FilterConcat;所述Base表征样本张量经过第一个卷积层处理;所述1x1卷积层、所述3x3卷积层和所述Pool卷积层用于对Base输出的数据进行卷积操作和池化操作;所述FilterConcat表征将从Base出发的4个分支卷积层的输出featuremap串联起来,其计算方式为:

H(x)=F1(x)+F2(x)+F3(x)+F4(x)

其中,x是一个张量,维数为N*C*H*W,其中,N为数量、C为通道、H为宽、W为高,H(x)是新的featuremap,Fi(x)是第i个分支featuremap,i取值[1,4];

所述HOA模块为高阶注意模块High-OrderAttention,用于通过尺度向量V将张量x的通道数由C变成D1,生成张量Z1,以及使用权重向量将张量Z1的通道数由D1变成C,生成一个维数为N*C*H*W的新张量,并将所述新张量与张量x做HadamardProduct,得到张量y;所述包括ReLU算子和1x1conv算子;

匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID。

2.根据权利要求1所述的方法,其特征在于,所述获取语音信号,并从所述语音信号中获取语音片段的步骤,包括:

获取语音信号;

对所述语音信号进行分帧处理,获取语音片段。

3.根据权利要求1所述的方法,其特征在于,所述提取所述语音片段的频谱图的步骤,包括:

对所述语音片段进行短时傅里叶变换,提取所述语音片段的频谱图。

4.根据权利要求1所述的方法,其特征在于,所述匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID的步骤,包括:

计算所述声纹特征与预设声纹特征的相似性分数;

当所述相似性分数大于预设阈值时,获取所述预设声纹特征的说话人ID;

将所述说话人ID确定为所述声纹特征的说话人ID。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门熵基科技有限公司,未经厦门熵基科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110200815.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top