[发明专利]一种声纹识别方法、装置、电子设备及存储介质有效

申请号：	202110200815.4	申请日：	2021-02-23
公开（公告）号：	CN112786057B	公开（公告）日：	2023-06-02
发明（设计）人：	杨奇;陈书楷	申请（专利权）人：	厦门熵基科技有限公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/18
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郭帅
地址：	361000 福建省厦门***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声纹识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种声纹识别方法，其特征在于，包括：

获取语音信号，并从所述语音信号中获取语音片段；

提取所述语音片段的频谱图；

对所述频谱图进行周期变换，得到周期频谱；

将所述周期频谱变换为梅尔频谱，并基于所述梅尔频谱得到语谱图；

通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征；所述MobileAudioNet为在MobileFaceNets的卷积层块conv1和conv_23后各增加1个Inception模块，在conv_5后增加1个1阶HOA模块后生成；

所述Inception模块用于多尺度融合特征图，包括Base、1x1卷积层、3x3卷积层、Pool卷积层和FilterConcat；所述Base表征样本张量经过第一个卷积层处理；所述1x1卷积层、所述3x3卷积层和所述Pool卷积层用于对Base输出的数据进行卷积操作和池化操作；所述FilterConcat表征将从Base出发的4个分支卷积层的输出featuremap串联起来，其计算方式为：

H(x)＝F1(x)+F2(x)+F3(x)+F4(x)

其中，x是一个张量，维数为N*C*H*W，其中，N为数量、C为通道、H为宽、W为高，H(x)是新的featuremap，Fi(x)是第i个分支featuremap，i取值[1，4]；

所述HOA模块为高阶注意模块High-OrderAttention，用于通过尺度向量V将张量x的通道数由C变成D¹，生成张量Z¹，以及使用权重向量将张量Z¹的通道数由D¹变成C，生成一个维数为N*C*H*W的新张量，并将所述新张量与张量x做HadamardProduct，得到张量y；所述包括ReLU算子和1x1conv算子；

匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID。

2.根据权利要求1所述的方法，其特征在于，所述获取语音信号，并从所述语音信号中获取语音片段的步骤，包括：

获取语音信号；

对所述语音信号进行分帧处理，获取语音片段。

3.根据权利要求1所述的方法，其特征在于，所述提取所述语音片段的频谱图的步骤，包括：

对所述语音片段进行短时傅里叶变换，提取所述语音片段的频谱图。

4.根据权利要求1所述的方法，其特征在于，所述匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID的步骤，包括：

计算所述声纹特征与预设声纹特征的相似性分数；

当所述相似性分数大于预设阈值时，获取所述预设声纹特征的说话人ID；

将所述说话人ID确定为所述声纹特征的说话人ID。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载