[发明专利]一种基于深度卷积编码器的说话人识别方法在审

申请号：	202310525675.7	申请日：	2023-05-10
公开（公告）号：	CN116564340A	公开（公告）日：	2023-08-08
发明（设计）人：	陈增照;郑秋雨;王志锋;刘海;姜新星;王卓;王政;刘川	申请（专利权）人：	华中师范大学
主分类号：	G10L25/18	分类号：	G10L25/18;G10L17/04;G10L15/22
代理公司：	武汉华之喻知识产权代理有限公司 42267	代理人：	曹葆青;廖盈春
地址：	430079 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度卷积编码器说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度卷积编码器的说话人识别方法，属于语音识别技术领域。本发明方法首先接收说话者的待识别语音；之后对所述待识别语音按预设时长分段并进行数据增强；再从每个音频片段中提取梅尔频谱特征；最后将所述梅尔频谱特征输入至预先训练完成的识别模型中，输出所述待识别语音的说话者身份；本发明所提出的说话人识别方法相比主流说话人识别方法准确率具有明显提升。

技术领域

本发明属于语音识别技术领域，更具体地，涉及一种基于深度卷积编码器的说话人识别方法。

背景技术

随着深度学习时代的到来，神经网络在说话人识别任务中已经取得了出色的表现。深度学习方法中的常规操作就是采用对说话人进行分类的方式实现说话人识别，并在说话人分类网络中以不同的池化操作得到说话人的话语及特定维度的嵌入作为说话人的声纹特征表示。近年来，transformer模型凭借其高并行能力和高计算能力在自然语言处理领域掀起了研究热潮。越来越多的研究者将该模型用于计算机视觉、语音处理等领域。然而，在说话人识别任务中使用transformer模型具有一定的挑战，现有的说话人识别方法中存在以下几点不足：(1)首先，transformer缺乏CNN固有的归纳偏差，例如平移等效性以及局部性，直接用于说话人识别会造成局部依赖的丢失；(2)其次，transformer的encoder-decoder更适用于端到端的序列任务，直接用于说话人识别不仅会增加模型的计算复杂度，降低训练效率；(3)传统的CNN能够很好地实现图像的局部特征的提取。然而，随着网络模型的增加，无疑会导致模型参数增多，训练难度加大。在说话人识别任务中，不是所有的声纹信息都是有用的。神经网络需要提取最能够代表说话人特征的表示从而更加有效地区分说话人。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度卷积编码器的说话人识别方法，其目的在于提高语音识别身份的准确性。

第一方面，本发明提供了一种基于深度卷积编码器的说话人识别模型训练方法，所述方法包括：

对训练集中的音频数据按预设时长分段并进行数据增强；

从每个音频片段中提取梅尔频谱特征；

构建识别模型，所述识别模型先从所述梅尔频谱特征中提取包含声纹局部依赖的特征向量，再通过多头注意力机制从所述特征向量中提取包含声纹全局相关性的声纹嵌入；

采用损失函数对所述声纹嵌入进行分类，通过减小损失来训练迭代所述识别模型，最终训练完成得到所述识别模型。

进一步地，从所述梅尔频谱特征中提取包含声纹局部依赖的特征向量，包括：

经过一个一维空洞卷积层对所述梅尔频谱特征进行初始卷积操作得到第一特征；

所述第一特征再经过一个注意力残差模块(SE-Res2Block)运算后得到第二特征；

所述第二特征再经过一个注意力残差模块运算后得到第三特征；

所述第三特征再经过一个注意力残差模块运算后得到第四特征；