[发明专利]说话人分离模型训练方法、两说话人分离方法及相关设备有效

申请号：	201810519521.6	申请日：	2018-05-28
公开（公告）号：	CN108766440B	公开（公告）日：	2020-01-14
发明（设计）人：	赵峰;王健宗;肖京	申请（专利权）人：	平安科技(深圳)有限公司
主分类号：	G10L17/00	分类号：	G10L17/00;G10L17/04;G10L21/0272
代理公司：	44334 深圳市赛恩倍吉知识产权代理有限公司	代理人：	杨毅玲
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	矢量特征相似度分离模型损失函数音频数据音频特征预设预处理神经网络模型提取预处理存储介质分离效果特征提取训练过程语音数据阈值时准确率长时终端更新对话
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种说话人分离模型训练方法，其特征在于，所述方法包括：

获取多个说话人及每个说话人的多个音频数据；

对每一个音频数据进行预处理；

提取预处理后的音频数据的音频特征；

将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征；

获取第一说话人的第一矢量特征及第二矢量特征，并根据预设第一相似度函数计算所述第一矢量特征与所述第二矢量特征之间的第一相似度，所述预设第一相似度函数为：COS(x_i,x_j)＝x_i^Tx_j，其中，x_i代表所述第一说话人的第一矢量特征，x_j代表所述第一说话人的第二特征矢量，COS(x_i,x_j)为计算得到的第一相似度；

获取第二说话人的第三矢量特征，并根据预设第二相似度函数计算所述第一矢量特征与所述第三矢量特征之间的第二相似度，所述预设第二相似度函数为L_P范数：其中，x_i代表所述第一说话人的第一矢量特征，y_i代表所述第二说话人的第三矢量特征，L_p(x_i,y_i)为计算得到的第二相似度，n为获取的二元组(x_i,y_i)的数量；

将所述第一相似度及所述第二相似度输入至预设损失函数中计算损失函数值，当损失函数值小于或等于预设损失函数阈值时，结束说话人分离模型的训练过程，并更新所述说话人分离模型中的参数，所述预设损失函数为：其中，α为正常数，S_i¹³为所述第二相似度，S_i¹²为所述第一相似度，L为计算出的损失函数值，N为获取的三元组(x_i,x_j,y_i)的数量。

2.如权利要求1所述的方法，其特征在于，对所述音频数据进行预处理包括：

对所述音频数据进行降噪处理；

对降噪处理后的音频数据进行语音端点检测，删除无效语音，得到标准语音数据样本；

对标准语音数据样本进行标注，以表明所述标准语音数据样本所属的说话人。

3.如权利要求1或2所述的方法，其特征在于，所述预设神经网络模型采用预设层数的神经网络结构堆叠而成；每一层神经网络结构包括：第一卷积层、第一修正线性单元、第二卷积层、第二修正线性单元、平均层、全连接层及归一化层，其中，卷积层的卷积核为3*3，步长为1*1，通道数为64；

所述将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征包括：

将所述音频特征输入至所述第一卷积层进行第一卷积处理，得到第一卷积特征；

将所述第一卷积特征输入至所述第一修正线性单元进行第一修正处理，得到第一修正特征；

将所述第一修正特征输入至所述第二卷积层进行第二卷积处理，得到第二卷积特征；

对所述音频特征与所述第二卷积特征进行求和后输入至所述第二修正线性单元，得到第二修正特征；

将所述第二修正特征依次输入至所述平均层、全连接层、归一化层进行处理，得到一维矢量特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。