[发明专利]声纹提取方法、身份识别方法及相关设备在审
申请号: | 202210239481.6 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114783415A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 李晋;方昕;褚繁;高天;胡郁;戴礼荣 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹 提取 方法 身份 识别 相关 设备 | ||
1.一种声纹提取方法,其特征在于,包括:
基于目标对象的第一语谱图进行特征提取,得到若干音素片段的特征序列;其中,所述特征序列包括至少一个帧级特征;
基于所述音素片段的特征序列进行特征统计,得到所述音素片段的音素特征;
基于所述若干音素片段的音素特征,得到所述目标对象的声纹特征。
2.根据权利要求1所述的方法,其特征在于,所述基于目标对象的第一语谱图进行特征提取,得到若干音素片段的特征序列,包括:
基于所述第一语谱图进行特征提取,得到所述帧级特征;
将所述帧级特征进行特征聚类,得到各所述音素片段的特征序列。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语谱图进行特征提取,得到所述帧级特征,包括:
基于所述第一语谱图进行多次不同的语谱特征提取,得到所述第一语谱图的多个不同的语谱特征;
对所述多个不同的语谱特征进行整合,得到所述帧级特征。
4.根据权利要求1所述的方法,其特征在于,所述基于所述音素片段的特征序列进行特征统计,得到所述音素片段的音素特征,包括:
获取所述特征序列中各所述帧级特征的注意力权重;
基于所述特征序列中各所述帧级特征及其注意力权重,得到所述特征序列的统计数据;其中,所述统计数据包括:特征均值和/或特征方差;
基于所述特征序列的统计数据,得到所述音素特征。
5.根据权利要求4所述的方法,其特征在于,所述特征均值的获取步骤包括:
依据所述注意力权重,对所述特征序列中各所述帧级特征进行加权,得到所述特征均值。
6.根据权利要求4所述的方法,其特征在于,所述特征方差的获取步骤包括:
获取所述特征序列中各所述帧级特征与所述特征均值之间的特征差值;
获取各所述特征差值的转置结果与所述特征差值的乘积;
基于各所述乘积和所述注意力权重,得到所述特征方差。
7.根据权利要求1所述的方法,其特征在于,在所述基于目标对象的第一语谱图进行特征提取,得到若干音素片段的特征序列之前,所述方法还包括:
基于所述目标对象的语音数据,构建得到第二语谱图,并将所述第二语谱图进行切分,得到若干语谱片段;
选择至少一个所述语谱片段,分别作为所述第一语谱图;
所述基于所述若干音素片段的音素特征,得到所述目标对象的声纹特征,包括:
对于各个所述第一语谱图,基于所述若干音素片段的音素特征,得到所述第一语谱图对应的声纹特征;
基于各个所述第一语谱图分别对应的声纹特征进行融合,得到所述目标对象的声纹特征。
8.根据权利要求1所述的方法,其特征在于,所述声纹特征基于声纹提取模型提取得到,且所述声纹提取模型基于样本语谱图训练得到,且所述样本语谱图标注有所属的样本对象。
9.根据权利要求8所述的方法,其特征在于,所述声纹提取模型的训练步骤包括:
基于所述声纹提取模型对所述样本语谱图进行声纹提取,得到样本声纹特征;
基于所述样本声纹特征进行预测,得到所述样本语谱图所属的预测对象;
基于所述样本对象和所述预测对象之间的差异,调整所述声纹提取模型的网络参数。
10.一种身份识别方法,其特征在于,包括:
获取待识别对象的第一声纹特征,并获取声纹特征库;其中,所述声纹特征库包含若干第二声纹特征,各所述第二声纹特征标注有所属对象的身份信息,且所述第一声纹特征和/或所述第二声纹特征基于权利要求1至9任一项所述的声纹提取方法提取得到;
基于所述第一声纹特征和所述声纹特征库进行分析,得到所述待识别对象的身份信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210239481.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式能源站全负荷调节方法及系统
- 下一篇:一种自动排气阀门