[发明专利]一种声纹识别方法、装置、电子设备及存储介质有效
申请号: | 202110200815.4 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112786057B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨奇;陈书楷 | 申请(专利权)人: | 厦门熵基科技有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声纹 识别 方法 装置 电子设备 存储 介质 | ||
1.一种声纹识别方法,其特征在于,包括:
获取语音信号,并从所述语音信号中获取语音片段;
提取所述语音片段的频谱图;
对所述频谱图进行周期变换,得到周期频谱;
将所述周期频谱变换为梅尔频谱,并基于所述梅尔频谱得到语谱图;
通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征;所述MobileAudioNet为在MobileFaceNets的卷积层块conv1和conv_23后各增加1个Inception模块,在conv_5后增加1个1阶HOA模块后生成;
所述Inception模块用于多尺度融合特征图,包括Base、1x1卷积层、3x3卷积层、Pool卷积层和FilterConcat;所述Base表征样本张量经过第一个卷积层处理;所述1x1卷积层、所述3x3卷积层和所述Pool卷积层用于对Base输出的数据进行卷积操作和池化操作;所述FilterConcat表征将从Base出发的4个分支卷积层的输出featuremap串联起来,其计算方式为:
H(x)=F1(x)+F2(x)+F3(x)+F4(x)
其中,x是一个张量,维数为N*C*H*W,其中,N为数量、C为通道、H为宽、W为高,H(x)是新的featuremap,Fi(x)是第i个分支featuremap,i取值[1,4];
所述HOA模块为高阶注意模块High-OrderAttention,用于通过尺度向量V将张量x的通道数由C变成D1,生成张量Z1,以及使用权重向量将张量Z1的通道数由D1变成C,生成一个维数为N*C*H*W的新张量,并将所述新张量与张量x做HadamardProduct,得到张量y;所述包括ReLU算子和1x1conv算子;
匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID。
2.根据权利要求1所述的方法,其特征在于,所述获取语音信号,并从所述语音信号中获取语音片段的步骤,包括:
获取语音信号;
对所述语音信号进行分帧处理,获取语音片段。
3.根据权利要求1所述的方法,其特征在于,所述提取所述语音片段的频谱图的步骤,包括:
对所述语音片段进行短时傅里叶变换,提取所述语音片段的频谱图。
4.根据权利要求1所述的方法,其特征在于,所述匹配所述声纹特征与预设声纹特征,识别所述声纹特征对应的说话人ID的步骤,包括:
计算所述声纹特征与预设声纹特征的相似性分数;
当所述相似性分数大于预设阈值时,获取所述预设声纹特征的说话人ID;
将所述说话人ID确定为所述声纹特征的说话人ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门熵基科技有限公司,未经厦门熵基科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110200815.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风力发电机组后备辅助系统
- 下一篇:新型蛾毛下吸式抽风净化系统