[发明专利]一种基于多尺度多层级模型的声纹识别系统及方法在审

申请号：	202111483631.X	申请日：	2021-12-07
公开（公告）号：	CN114220437A	公开（公告）日：	2022-03-22
发明（设计）人：	汪欣;谢川;展华益	申请（专利权）人：	四川启睿克科技有限公司
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/04;G10L25/24
代理公司：	成都虹桥专利事务所(普通合伙) 51124	代理人：	吴中伟
地址：	610000 四川省成都市中国（四川）***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于尺度多层模型声纹识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及声纹识别技术领域，为了提高声纹识别的准确率，提供了一种基于多尺度多层级模型的声纹识别方法，包括：步骤1、获取带说话人标注的语音数据；步骤2、将所述语音数据依据不同尺度划分为特征片段，每种划分尺度对应一个层级；步骤3、构建并训练与数据划分方式对应的多尺度多层级模型；步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。一种基于多尺度多层级模型的声纹识别系统，包括：数据获取单元、数据划分单元、模型构建单元、模型训练单元及声纹识别单元。采用上述方式，提高了声纹识别模型的准确性。

技术领域

本发明涉及声纹识别技术领域，具体是一种基于多尺度多层级模型的声纹识别系统及方法。

背景技术

随着人工智能技术的快速发展，越来越多融合了人工智能技术的产品出现在人们的日常生活中。其中，声纹信息作为重要的生物特征，是用户身份验证的有效途径之一。声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用，特别是在安防领域和智能设备产品上。

然而，一条语音数据上蕴含的身份信息并不是均匀分布在语音信号上的，即同一条语音信号的不同位置表现出的对于说话人的区分性是不同的。因此，对于语音信号所有位置的信息都给予同样重视度的方法会影响识别准确率。其次，由于语音数据的长短不一致，当训练数据的长度和测试语音信号的长度相差较大时，可能会造成模型性能下降。类似地，用户注册时语音信号的长度和验证时语音信号长度相差较大时，也会一定程度影响声纹识别系统的准确率。

目前大多数声纹系统隐式地利用注意力机制或者基于VLAD的算法来考虑语音信号中不同帧的语音信号对说话人身份认定的权重，但这些方法通常存在以下问题：

1、只能固定地考虑每帧权重，而不能合并地考虑一段连续的语音信号子区间整体对于说话人身份的区分性；

2、难以解决训练语料的语音信号长度和测试语音信号长度相差较大时造成的系统性能下降；

3、难以在原有框架上兼容考虑文本内容，或是只能利用多任务模型均匀地考虑整个语音信号中每帧信号的文本，难以利用文本中字、词、短语这类发音连续区间的位置信息，利用语音信号连续性，提升识别准确率。

发明内容

为了提高声纹识别的准确率，本发明提供了一种基于多尺度多层级模型的声纹识别系统及方法。

本发明解决上述问题所采用的技术方案是：

一种基于多尺度多层级模型的声纹识别方法，包括：

步骤1、获取带说话人标注的语音数据；

步骤2、将所述语音数据依据不同尺度划分为特征片段，每种划分尺度对应一个层级；

步骤3、构建并训练与数据划分方式对应的多尺度多层级模型；

步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。