[发明专利]一种说话人识别方法及系统在审
申请号: | 202110886484.4 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113611314A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 张葛祥;方祖林;贾勇;姚光乐;杨强;焦旭;罗标;汤刚;何瑶 | 申请(专利权)人: | 成都理工大学;成都图灵志杨信息科技有限责任公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/06;G10L25/45 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 说话 识别 方法 系统 | ||
1.一种说话人识别方法及系统,其特征在于,包括以下步骤:
步骤1:对原始音频进行采样处理;
步骤2:对步骤1经采样处理后的数据进行预处理,
所述预处理包括:
端点检测,去除语音信号静音和噪声片段;
预加重,补偿语音信号高频分量;
分帧,从非稳态的长段语音中截取小段稳态的短语音;
步骤3:基于多个不同窗长的短时傅里叶变换对所述步骤2预处理后的数据进行处理得到多个线性谱图;对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
步骤4:将所述多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
步骤5:通过训练网络对所述多个梅尔谱图分别进行训练,得到多个特征向量;
步骤6:同时在所述训练网络后添加通道注意力模块,然后对所述多个梅尔谱图分别进行训练,得到多个最优的特征通道权重;
步骤7:加权融合所述多个特征向量和所述特征通道权重,得到融合特征向量
步骤8:将所述融合特征向量与数据库中的特征向量进行余弦相似度计算后与预设阈值相比较,判定出说话人。
2.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤3对所述步骤2处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图中,根据以下方式获得线性谱图:
其中x(m)为m时刻的信号,ω(n-m)为窗函数,n代表当前位置。
3.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤4中的梅尔滤波器组中的梅尔刻度和频率的关系如下所示:
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
4.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤6中的通道注意力模块按照以下方式训练:
其中MC(F)为通道注意力权重,σ为sigmoid函数,MLP为多层感知机,F为输入的FeatureMap,W1和W0为权值,和分别是Feature Map在通道上的平均池化和最大池化。
5.如权利要求1所述的一种说话人识别方法及系统,其特征在于:多个特征向量包括特征向量特征向量特征向量特征向量多个特征通道权重包括特征通道权重特征通道权重特征通道权重特征通道权重所述步骤7中,将特征向量和所述步骤6中的得到的特征通道权重进行加权融合,得到融合特征向量
6.如权利要求1所述的一种说话人识别方法及系统,其特征在于:所述步骤8中融合特征向量与数据库中已有的特征向量根据以下方式进行余弦相似度计算:
其中,d为余弦距离。
根据d与阈值的大小来判定出说话人。
7.一种基于多分辨谱图特征注意力融合网络的说话人识别系统,其特征在于:包括:
采样模块:用于采样处理原始音频;
预处理模块:用于对采样模块处理后的数据进行预处理,
所述预处理模块包括:
端点检测单元,用于去除语音信号静音和噪声片段;
预加重单元,用于补偿语音信号高频分量;
分帧单元,用于从非稳态的长段语音中截取小段稳态的短语音;
傅里叶变换模块:用于对所述预处理模块处理后的数据分别使用不同窗长的短时傅里叶变换处理得到多个线性谱图;
梅尔滤波器组:用于将多个线性谱图分别通过梅尔滤波器组滤波得到多个梅尔谱图;
第一训练模块:用于对每个梅尔谱图进行训练,得到多个特征向量;
第二训练模块:用于训练出多个最优的特征通道权重;
加权融合模块:用于加权融合所述第一训练模块训练得到的特征向量和所述第二训练模块训练得到的特征通道权重,得到融合特征向量
判别模块:用于将融合特征向量与数据库中的特征向量进行余弦相似度计算后与阈值相比较,判定出说话人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学;成都图灵志杨信息科技有限责任公司,未经成都理工大学;成都图灵志杨信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886484.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文字识别模型的训练方法及装置、存储介质、电子设备
- 下一篇:一种生姜收获装备