[发明专利]一种说话人识别方法及系统在审
申请号: | 202110886484.4 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113611314A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 张葛祥;方祖林;贾勇;姚光乐;杨强;焦旭;罗标;汤刚;何瑶 | 申请(专利权)人: | 成都理工大学;成都图灵志杨信息科技有限责任公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/06;G10L25/45 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 识别 方法 系统 | ||
本发明公开了一种说话人识别方法及系统,使用不同傅里叶变换窗长分别提取语音信号在不同时频分辨率下的梅尔谱图作为训练网络的特征图,将梅尔谱图分别使用ResNet34网络进行识别训练得到多个模型,并且在ResNet34网络的后端加入注意力模块使模型能够训练出每个特征通道的最优权重,然后通过加权融合的方式得到最终的融合特征向量,最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较,以确定说话人身份。本发明利用不同傅里叶变换窗长提取语音信号在不同时间、频率分辨率下的梅尔谱图特征进行训练,弥补了单一傅里叶窗长下提取特征谱图所导致的时间、频率分辨率不足的问题,提高了声纹识别的准确率。
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种说话人识别方法及系统。
背景技术
声纹识别作为一种重要的生物特征识别方式广泛的应用于安全领域、医疗领域、金融领域以及智能家居中。在声纹识别中,输入到网络中的特征谱图的质量好坏在提高声纹识别的准确率上起着重要的作用,目前主流的MFCC、GFCC、LPCC等谱图通常是将在时域上的语音信息使用傅里叶变换得到线性特征谱图然后再经过不同的滤波器而得到的。
由傅里叶变换得到的特征谱图的时间分辨率与频率分辨率受到傅里叶变换窗长的长度影响较大,傅里叶变换窗长越长,生成的谱图的时间分辨率越差,频率分辨率越好,反之亦然。传统的特征谱图生成方法都是在单一恒定的傅里叶变换窗长下得到的,其时间分辨率和频率分辨率一定,因此其无法很好的表达在不同时间分辨率,频率分辨率下的信息,可能会导致时域、频域信息的流失。因此目前的声纹识别算法无法很好的满足说话人识别的需求,其识别准确率有待提高。
发明内容
本发明针对现有技术存在的不足,提供了一种说话人识别方法及系统,基于多分辨谱图特征注意力融合网络,有效的解决了在使用单一傅里叶变换窗长的情况下所造成的时间分辨率和频率分辨率精度不足的问题,提高了声纹识别的准确率。
本发明的具体技术方案如下:
本发明的其中一个技术方案是一种说话人识别方法及系统,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
步骤7:加权融合所述多个特征向量和所述特征通道权重,得到融合特征向量
步骤8:将所述融合特征向量与数据库中的特征向量进行余弦相似度计算后与预设阈值相比较,判定出说话人。
作为优选,所述步骤3对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图中,根据以下方式获得线性谱图:
其中x(m)为m时刻的信号,ω(n-m)为窗函数,n代表当前位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都图灵志杨信息科技有限责任公司,未经成都理工大学;成都图灵志杨信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886484.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文字识别模型的训练方法及装置、存储介质、电子设备
- 下一篇:一种生姜收获装备