[发明专利]基于bottleneck和通道切分的轻量级说话人识别方法及系统有效
申请号: | 202210160392.2 | 申请日: | 2022-02-22 |
公开(公告)号: | CN114220438B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 蔡林君;杨玉红;陈旭峰;陈弘扬;涂卫平;艾浩军 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bottleneck 通道 切分 轻量级 说话 识别 方法 系统 | ||
1.一种基于bottleneck和通道切分的轻量级说话人识别方法,其特征在于:包括以下步骤,
步骤1,基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型,所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块,语音特征首先作为轻量级说话人识别网络主体的输入,输出为不定长的特征,将其作为说话人识别模型池化模块处理后,生成定长的说话人嵌入;
所述轻量级说话人识别网络主体实现如下,
1)模型第一层使用时间通道分离一维卷积,所述时间通道分离一维卷积由一个深度一维卷积和一个点卷积组成,然后经由批归一化和激活函数处理,输入一维最大值池化处理;
2)模型第一层处理完成后,将进行多层残差块处理,每一个残差块包括主分支和残差连接分支,主分支包括有三个CS-CTCSConv1d子模块和一个时间通道分离一维卷积分支,残差连接分支包括一个一维点卷积和批归一化,两个分支输出结构相加后使用PReLU激活函数处理;所述bottleneck为瓶颈层,表示残差块中的主分支;
CS-CTCSConv1d子模块中,首先进行一次通道切分运算,将输入沿着通道的维度均等切分成两个部分,每个部分分别形成一个分支的输入,其中一个分支作为直连分支不进行额外的运算,另一个分支包含三个计算单元,第一个计算单元包含的一维卷积、批归一化、ReLU激活函数,第二个计算单元包括一维深度分离卷积、批归一化,第三个计算单元包括一个卷积核大小为1的一维点卷积、批归一化、ReLU激活函数;最后将两个分支的输出沿着通道维度进行拼接操作后完成整个单元的运算;
3)多层残差块处理后,经由与第一层相同的时间通道分离一维卷积、批归一化和激活函数处理,然后进行点卷积和批归一化,再经由激活函数处理,最后使用GhostVLAD层进行池化,将帧级别的信息聚合起来,其结果是输入语音的说话人嵌入;
步骤2,使用知识蒸馏进一步提高模型准确率,包括对基于步骤1所得说话人识别模型实现的教师模型进行预训练,定义知识蒸馏的损失函数,使用知识蒸馏训练轻量级的学生网络模型,根据训练结果实现说话人识别。
2.根据权利要求1所述的一种基于bottleneck和通道切分的轻量级说话人识别方法,其特征在于:步骤1的实现包括以下子步骤,
步骤1.1,构建轻量级说话人识别网络主体;
步骤1.2,构建说话人识别模型池化模块;
步骤1.3,声学特征提取;
步骤1.4,基于深度神经网络的说话人识别模型训练。
3.根据权利要求1或2所述的一种基于bottleneck和通道切分的轻量级说话人识别方法,其特征在于:步骤2的实现包括以下子步骤,
步骤2.1,对教师模型进行预训练,所述教师网络通过将步骤1中构建的说话人识别模型中所有卷积核数量增加至原本的三倍实现;
步骤2.2,定义知识蒸馏的损失函数;
步骤2.3,使用知识蒸馏训练轻量级的学生网络模型,基于所得说话人识别模型进行应用,获得识别结果;
步骤2.4,对步骤2.3训练所得模型进行测试,分别进行声纹识别模型准确率测试,以及声纹识别模型推理速度测试。
4.一种基于bottleneck和通道切分的轻量级说话人识别系统,其特征在于:用于实现如权利要求1-3任一项所述的一种基于bottleneck和通道切分的轻量级说话人识别方法。
5.根据权利要求4所述基于bottleneck和通道切分的轻量级说话人识别系统,其特征在于:包括以下模块,
第一模块,用于基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型,所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块,语音特征首先作为轻量级说话人识别网络主体的输入,输出为不定长的特征,将其作为说话人识别模型池化模块处理后,生成定长的说话人嵌入;
第二模块,用于使用知识蒸馏进一步提高模型准确率,包括对基于第一模块所得说话人识别模型实现的教师模型进行预训练,定义知识蒸馏的损失函数,使用知识蒸馏训练轻量级的学生网络模型,根据训练结果实现说话人识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210160392.2/1.html,转载请声明来源钻瓜专利网。