[发明专利]说话人分离模型训练方法、两说话人分离方法及相关设备有效
申请号: | 201810519521.6 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108766440B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 赵峰;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L21/0272 |
代理公司: | 44334 深圳市赛恩倍吉知识产权代理有限公司 | 代理人: | 杨毅玲 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种说话人分离模型训练方法,包括:获取多个音频数据并进行预处理;提取预处理后的音频数据的音频特征;将音频特征输入至预设神经网络模型中进行训练得到矢量特征;计算第一说话人的第一矢量特征与第二矢量特征之间的第一相似度;计算第一说话人的第一矢量特征与第二说话人的第三矢量特征之间的第二相似度;计算第一相似度及第二相似度的损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束说话人分离模型的训练过程,并更新模型中的参数。本发明还提供一种两说话人分离方法、终端及存储介质。能够显著的增强模型对输入的语音数据的特征提取能力,提高两说话人分离的准确率,尤其是在长时对话的分离任务中能取得更佳的分离效果。 | ||
搜索关键词: | 矢量特征 相似度 分离模型 损失函数 音频数据 音频特征 预设 预处理 神经网络模型 提取预处理 存储介质 分离效果 特征提取 训练过程 语音数据 阈值时 准确率 长时 终端 更新 对话 | ||
【主权项】:
1.一种说话人分离模型训练方法,其特征在于,所述方法包括:/n获取多个说话人及每个说话人的多个音频数据;/n对每一个音频数据进行预处理;/n提取预处理后的音频数据的音频特征;/n将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征;/n获取第一说话人的第一矢量特征及第二矢量特征,并根据预设第一相似度函数计算所述第一矢量特征与所述第二矢量特征之间的第一相似度,所述预设第一相似度函数为:COS(x
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810519521.6/,转载请声明来源钻瓜专利网。