[发明专利]一种基于mean-SAP池化模型的说话人识别方法及系统有效
申请号: | 202110894996.5 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113643709B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 邓飞;邓力洪;张葛祥;杨强;姚光乐 | 申请(专利权)人: | 成都理工大学;成都图灵志杨信息科技有限责任公司 |
主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/02;G06N3/0464 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mean sap 模型 说话 识别 方法 系统 | ||
本发明公开了一种基于mean‑SAP池化模型的说话人识别方法及系统,该方法及系统通过线性注意力机制产生每帧帧级特征的重要性权重,并通过产生的重要性权重生成统计向量,然后将帧级特征和统计向量的残差与重要性权重加权平均生成话语级特征。最后将话语级特征与数据库中的说话人特征进行欧式距离比较,以确定说话人身份。本发明通过线性注意力机制及引入统计向量的方式,弥补了Self‑attention pooling(SAP)池化模型捕捉有效帧不准确生成的话语级特征鲁棒性弱的问题,提高了说话人识别的准确率。
技术领域
本发明涉及声纹识别领域,具体的说,涉及一种基于mean-SAP池化模型的说话人识别方法及系统。
背景技术
基于卷积神经网络的端到端说话人识别系统中,一般采用平均时间池化模型(TAP)将变长的音频聚合为定长的话语级特征。TAP模型可以沿着时间轴进行简单的平均池化。然而,我们的声音有时会变化,甚至在说话时发生停顿。TAP池化模型无法捕捉到这些变化,因此聚合出的话语级特征差,识别准确率低。
近年来,一些学者对池化模型进行了研究。其中(作者)提出了Self-attentionpooling(SAP)池化模型,该方法解决了传统池化模型只能平等的聚合帧级特征的问题,它可自动计算卷积神经网络提取出的每帧帧级特征的重要性进行帧选择,再聚合为定长的话语级特征。但是该方法偶尔会表现出比TAP池化模型更低的识别准确率,说明该方法无法准确的进行帧选择,并且在有噪环境下聚合的话语级特征鲁棒性弱识别效果不理想。
发明内容
本发明针对现有技术存在的不足,提供了一种基于mean-SAP池化模型的说话人识别方法及系统,解决了现有技术中无法准确进行帧选择的问题,提取出的话语级特征鲁棒性弱,提升模型识别的准确率。通过使用本发明的方法可以实现提取出鲁棒性更强的话语级特征,取得更好的识别效果。
本发明的具体技术方案如下:
一种基于基于mean-SAP池化模型的说话人识别方法及系统,如图1所示,包括以下步骤:
步骤1:获取原始音频的线性谱图;
步骤2:使用梅尔滤波器滤波对线性谱图进行滤波得到梅尔谱图;
步骤3:将梅尔谱图放入训练网络中进行训练,提取训练网络中的最后一个卷积层的输出,得到帧级特征;
步骤4:根据帧级特征生成相应的每帧特征的重要性权重;
步骤5:通过神经网络生成与帧级特征同大小的统计向量,并训练出最优的统计向量;
步骤6:将帧级特征与重要性权重映射加权;
步骤7:将重要性权重沿着时间方向加和与统计向量加权;
步骤8:将加权后的帧级特征与加权后的统计向量的残差求和平均生成话语级特征;
步骤9:将话语级特征与数据库中的特征向量进行欧式距离计算,并与阈值比较,最终识别出说话人。
作为优选:步骤1中可以通过短时傅里叶变化获取原始音频的线性谱图,其表达式为:
式中x(m)为m时刻的信号,w(n-m)为窗函数,w为角频率的连续函数,n为关于时间的离散函数,j为大于0小于N-1的整数。
作为优选:步骤4中重要性权重根据线性注意力机制及softmax函数生成,其表达式为:
et=fSL(xt)=wTxt+b
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都图灵志杨信息科技有限责任公司,未经成都理工大学;成都图灵志杨信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110894996.5/2.html,转载请声明来源钻瓜专利网。