[发明专利]一种模型生成方法、声纹识别方法及对应装置有效
申请号: | 201911123586.X | 申请日: | 2019-11-17 |
公开(公告)号: | CN110838295B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 白仲鑫;张晓雷;陈景东 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/18;G10L21/0208 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 武成国 |
地址: | 710000 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 生成 方法 声纹 识别 对应 装置 | ||
本申请提供一种模型生成方法、声纹识别方法及对应装置,该方法包括:将多个训练样本输入预设的神经网络模型,以计算每一训练样本经过所述预设神经网络模型的输出向量,其中,多个训练样本中部分训练样本为相同说话人的声学特征,部分训练样本为不同说话人的声学特征;根据相同说话人的输出向量计算相同说话人的类内协方差;根据任意两个不同说话人的输出向量计算任意两个不同说话人的输出向量之间的欧式距离;根据不同说话人的输出向量之间的欧式距离、相同说话人的类内协方差以及预先构建的损失函数计算对应的训练损失;根据训练损失对神经网络模型的各个参数进行迭代更新,以得到声纹特征提取模型。
技术领域
本申请涉及深度学习声纹识别技术领域,具体而言,涉及一种模型生成方法、声纹识别方法及对应装置。
背景技术
现有的通过深度学习来进行声纹识别的损失函数分为两类,包括分类损失函数和确认损失函数,而分类损失函数在训练时,输出节点会随着训练集中说话人数量的增加而增加,造成输出层笨重或过拟合的问题;确认损失函数在训练时需要精心构造样本对,存在着样本对构造复杂的问题。
发明内容
本申请实施例的目的在于提供一种模型生成方法、声纹识别方法及对应装置,用以解决现有的分类损失函数在训练时,输出节点会随着训练集中说话人数量的增加而增加,存在的输出层笨重或过拟合的问题;确认损失函数在训练时需要精心构造样本对,存在着样本对构造复杂的问题。
第一方面,实施例提供一种模型生成方法,所述方法包括:将多个训练样本输入预设的神经网络模型,以计算每一所述训练样本经过所述预设的神经网络模型的输出向量,其中,所述多个训练样本中部分训练样本为相同说话人的声学特征,部分训练样本为不同说话人的声学特征;根据相同说话人的输出向量计算相同说话人的类内协方差;根据相同说话人的输出向量计算相同说话人的元素类中心;根据任意两个不同说话人的元素类中心计算所述任意两个不同说话人的输出向量之间的欧式距离;根据不同说话人的输出向量之间的欧式距离、相同说话人的类内协方差以及预先构建的损失函数计算对应的训练损失;根据所述训练损失对所述神经网络模型的各个参数进行迭代更新,以得到声纹特征提取模型。
在上述设计的模型生成方法中,训练得到的声纹特征提取模型通过不同说话人的输出向量之间的欧式距离、相同说话人的类内协方差以及预先构建的损失函数计算对应的训练损失进而进行训练得到,使得训练得到的声纹特征提取模型提取的同一说话人的声纹特征向量之间的距离更近,不同说话人的声纹特征向量之间的距离更远,同时预设的神经网络模型的输出层是固定的,因此,解决了现有的分类损失函数在训练时,输出节点会随着训练集中说话人数量的增加而增加,存在的输出层笨重的问题;确认损失函数在训练时需要精心构造样本对,存在着样本对构造复杂的问题。
在第一方面的可选实施方式中,所述预先构建的损失函数f(z|θ)为:
其中,所述r和λ为预设的可调超参数;m′i表示第i个说话人的输出向量的类中心;m′j表示第j个说话人的输出向量的类中心;所述z为神经网络的输出向量;θ为神经网络的待训练参数;K为类别总数;∑i表示第i个说话人的类内协方差;表示正则项。
在第一方面的可选实施方式中,在所述将多个训练样本输入预设的神经网络模型之前,所述方法还包括:获取语音训练信息,滤除所述语音训练信息中的静音信息和噪声信息,获得多个语音训练片段,并对不同说话人的语音训练片段进行标注;通过梅尔频率倒谱系数提取每个语音训练片段中的声学特征信息,获得所述多个训练样本。
第二方面,实施例提供一种声纹识别方法,所述方法包括:获取待判断用户的实时语音信息,提取所述实时语音信息的声学特征;将所述实时语音信息的声学特征输入声纹特征提取模型,以提取所述实时语音信息的声纹特征向量,所述声纹特征提取模型采用第一方面中任一项所述的方法获得的声纹特征提取模型;根据预存用户的语音样本信息的声纹特征向量以及所述实时语音信息的声纹特征向量判断所述待判断用户是否为预存用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911123586.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清理键盘用清灰装置
- 下一篇:一种塑料袋包装盒