[发明专利]一种基于多尺度多层级模型的声纹识别系统及方法在审
申请号: | 202111483631.X | 申请日: | 2021-12-07 |
公开(公告)号: | CN114220437A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 汪欣;谢川;展华益 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L25/24 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 多层 模型 声纹 识别 系统 方法 | ||
本发明涉及声纹识别技术领域,为了提高声纹识别的准确率,提供了一种基于多尺度多层级模型的声纹识别方法,包括:步骤1、获取带说话人标注的语音数据;步骤2、将所述语音数据依据不同尺度划分为特征片段,每种划分尺度对应一个层级;步骤3、构建并训练与数据划分方式对应的多尺度多层级模型;步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。一种基于多尺度多层级模型的声纹识别系统,包括:数据获取单元、数据划分单元、模型构建单元、模型训练单元及声纹识别单元。采用上述方式,提高了声纹识别模型的准确性。
技术领域
本发明涉及声纹识别技术领域,具体是一种基于多尺度多层级模型的声纹识别系统及方法。
背景技术
随着人工智能技术的快速发展,越来越多融合了人工智能技术的产品出现在人们的日常生活中。其中,声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用,特别是在安防领域和智能设备产品上。
然而,一条语音数据上蕴含的身份信息并不是均匀分布在语音信号上的,即同一条语音信号的不同位置表现出的对于说话人的区分性是不同的。因此,对于语音信号所有位置的信息都给予同样重视度的方法会影响识别准确率。其次,由于语音数据的长短不一致,当训练数据的长度和测试语音信号的长度相差较大时,可能会造成模型性能下降。类似地,用户注册时语音信号的长度和验证时语音信号长度相差较大时,也会一定程度影响声纹识别系统的准确率。
目前大多数声纹系统隐式地利用注意力机制或者基于VLAD的算法来考虑语音信号中不同帧的语音信号对说话人身份认定的权重,但这些方法通常存在以下问题:
1、只能固定地考虑每帧权重,而不能合并地考虑一段连续的语音信号子区间整体对于说话人身份的区分性;
2、难以解决训练语料的语音信号长度和测试语音信号长度相差较大时造成的系统性能下降;
3、难以在原有框架上兼容考虑文本内容,或是只能利用多任务模型均匀地考虑整个语音信号中每帧信号的文本,难以利用文本中字、词、短语这类发音连续区间的位置信息,利用语音信号连续性,提升识别准确率。
发明内容
为了提高声纹识别的准确率,本发明提供了一种基于多尺度多层级模型的声纹识别系统及方法。
本发明解决上述问题所采用的技术方案是:
一种基于多尺度多层级模型的声纹识别方法,包括:
步骤1、获取带说话人标注的语音数据;
步骤2、将所述语音数据依据不同尺度划分为特征片段,每种划分尺度对应一个层级;
步骤3、构建并训练与数据划分方式对应的多尺度多层级模型;
步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。
进一步地,所述步骤1还包括对语音数据进行增广操作。
进一步地,所述增广操作包括对数据进行拼接、截断、反转、在原数据上叠加噪音和/或混响。
进一步地,所述步骤1还包括对语音数据提取特征表示。
进一步地,所述特征表示为基于频谱特征的表示或基于神经网络提取的嵌入表示。
进一步地,将所述语音数据依据不同尺度划分为特征片段的具体步骤为:
预设一个固定的层级数N,并且每个层级采用不同的一个固定步长对语音数据进行划分;或者根据发音规律对语音数据进行多次划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483631.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种巷道爆破自动喷雾装置
- 下一篇:一种基于位置实现的用户灰度功能方法