[发明专利]说话人分离模型训练方法、两说话人分离方法及相关设备有效
申请号: | 201810519521.6 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108766440B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 赵峰;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L21/0272 |
代理公司: | 44334 深圳市赛恩倍吉知识产权代理有限公司 | 代理人: | 杨毅玲 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矢量特征 相似度 分离模型 损失函数 音频数据 音频特征 预设 预处理 神经网络模型 提取预处理 存储介质 分离效果 特征提取 训练过程 语音数据 阈值时 准确率 长时 终端 更新 对话 | ||
1.一种说话人分离模型训练方法,其特征在于,所述方法包括:
获取多个说话人及每个说话人的多个音频数据;
对每一个音频数据进行预处理;
提取预处理后的音频数据的音频特征;
将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征;
获取第一说话人的第一矢量特征及第二矢量特征,并根据预设第一相似度函数计算所述第一矢量特征与所述第二矢量特征之间的第一相似度,所述预设第一相似度函数为:COS(xi,xj)=xiTxj,其中,xi代表所述第一说话人的第一矢量特征,xj代表所述第一说话人的第二特征矢量,COS(xi,xj)为计算得到的第一相似度;
获取第二说话人的第三矢量特征,并根据预设第二相似度函数计算所述第一矢量特征与所述第三矢量特征之间的第二相似度,所述预设第二相似度函数为LP范数:其中,xi代表所述第一说话人的第一矢量特征,yi代表所述第二说话人的第三矢量特征,Lp(xi,yi)为计算得到的第二相似度,n为获取的二元组(xi,yi)的数量;
将所述第一相似度及所述第二相似度输入至预设损失函数中计算损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束说话人分离模型的训练过程,并更新所述说话人分离模型中的参数,所述预设损失函数为:其中,α为正常数,Si13为所述第二相似度,Si12为所述第一相似度,L为计算出的损失函数值,N为获取的三元组(xi,xj,yi)的数量。
2.如权利要求1所述的方法,其特征在于,对所述音频数据进行预处理包括:
对所述音频数据进行降噪处理;
对降噪处理后的音频数据进行语音端点检测,删除无效语音,得到标准语音数据样本;
对标准语音数据样本进行标注,以表明所述标准语音数据样本所属的说话人。
3.如权利要求1或2所述的方法,其特征在于,所述预设神经网络模型采用预设层数的神经网络结构堆叠而成;每一层神经网络结构包括:第一卷积层、第一修正线性单元、第二卷积层、第二修正线性单元、平均层、全连接层及归一化层,其中,卷积层的卷积核为3*3,步长为1*1,通道数为64;
所述将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征包括:
将所述音频特征输入至所述第一卷积层进行第一卷积处理,得到第一卷积特征;
将所述第一卷积特征输入至所述第一修正线性单元进行第一修正处理,得到第一修正特征;
将所述第一修正特征输入至所述第二卷积层进行第二卷积处理,得到第二卷积特征;
对所述音频特征与所述第二卷积特征进行求和后输入至所述第二修正线性单元,得到第二修正特征;
将所述第二修正特征依次输入至所述平均层、全连接层、归一化层进行处理,得到一维矢量特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810519521.6/1.html,转载请声明来源钻瓜专利网。