[发明专利]一种说话人识别方法及系统在审

申请号：	202110886484.4	申请日：	2021-08-03
公开（公告）号：	CN113611314A	公开（公告）日：	2021-11-05
发明（设计）人：	张葛祥;方祖林;贾勇;姚光乐;杨强;焦旭;罗标;汤刚;何瑶	申请（专利权）人：	成都理工大学;成都图灵志杨信息科技有限责任公司
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/06;G10L25/45
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	王红霞
地址：	610000 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种说话人识别方法及系统，使用不同傅里叶变换窗长分别提取语音信号在不同时频分辨率下的梅尔谱图作为训练网络的特征图，将梅尔谱图分别使用ResNet34网络进行识别训练得到多个模型，并且在ResNet34网络的后端加入注意力模块使模型能够训练出每个特征通道的最优权重，然后通过加权融合的方式得到最终的融合特征向量，最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较，以确定说话人身份。本发明利用不同傅里叶变换窗长提取语音信号在不同时间、频率分辨率下的梅尔谱图特征进行训练，弥补了单一傅里叶窗长下提取特征谱图所导致的时间、频率分辨率不足的问题，提高了声纹识别的准确率。

技术领域

本发明涉及声纹识别领域，具体的说，涉及一种说话人识别方法及系统。

背景技术

声纹识别作为一种重要的生物特征识别方式广泛的应用于安全领域、医疗领域、金融领域以及智能家居中。在声纹识别中，输入到网络中的特征谱图的质量好坏在提高声纹识别的准确率上起着重要的作用，目前主流的MFCC、GFCC、LPCC等谱图通常是将在时域上的语音信息使用傅里叶变换得到线性特征谱图然后再经过不同的滤波器而得到的。

由傅里叶变换得到的特征谱图的时间分辨率与频率分辨率受到傅里叶变换窗长的长度影响较大，傅里叶变换窗长越长，生成的谱图的时间分辨率越差，频率分辨率越好，反之亦然。传统的特征谱图生成方法都是在单一恒定的傅里叶变换窗长下得到的，其时间分辨率和频率分辨率一定，因此其无法很好的表达在不同时间分辨率，频率分辨率下的信息，可能会导致时域、频域信息的流失。因此目前的声纹识别算法无法很好的满足说话人识别的需求，其识别准确率有待提高。

发明内容

本发明针对现有技术存在的不足，提供了一种说话人识别方法及系统，基于多分辨谱图特征注意力融合网络，有效的解决了在使用单一傅里叶变换窗长的情况下所造成的时间分辨率和频率分辨率精度不足的问题，提高了声纹识别的准确率。

本发明的具体技术方案如下：

本发明的其中一个技术方案是一种说话人识别方法及系统，包括以下步骤：

步骤1：对原始音频进行采样处理；

步骤2：对步骤1经采样处理后的数据进行预处理，

所述预处理包括：

端点检测，去除语音信号静音和噪声片段；

预加重，补偿语音信号高频分量；

分帧，从非稳态的长段语音中截取小段稳态的短语音；

步骤3：基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图；对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图；

步骤4：将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图；