[发明专利]说话人分离模型训练方法、两说话人分离方法及相关设备有效

专利信息
申请号: 201810519521.6 申请日: 2018-05-28
公开(公告)号: CN108766440B 公开(公告)日: 2020-01-14
发明(设计)人: 赵峰;王健宗;肖京 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L17/00 分类号: G10L17/00;G10L17/04;G10L21/0272
代理公司: 44334 深圳市赛恩倍吉知识产权代理有限公司 代理人: 杨毅玲
地址: 518000 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 矢量特征 相似度 分离模型 损失函数 音频数据 音频特征 预设 预处理 神经网络模型 提取预处理 存储介质 分离效果 特征提取 训练过程 语音数据 阈值时 准确率 长时 终端 更新 对话
【说明书】:

一种说话人分离模型训练方法,包括:获取多个音频数据并进行预处理;提取预处理后的音频数据的音频特征;将音频特征输入至预设神经网络模型中进行训练得到矢量特征;计算第一说话人的第一矢量特征与第二矢量特征之间的第一相似度;计算第一说话人的第一矢量特征与第二说话人的第三矢量特征之间的第二相似度;计算第一相似度及第二相似度的损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束说话人分离模型的训练过程,并更新模型中的参数。本发明还提供一种两说话人分离方法、终端及存储介质。能够显著的增强模型对输入的语音数据的特征提取能力,提高两说话人分离的准确率,尤其是在长时对话的分离任务中能取得更佳的分离效果。

技术领域

本发明涉及生物识别技术领域,具体涉及一种说话人分离模型训练方法、两说话人分离方法、终端及存储介质。

背景技术

随着音频处理技术的不断提高,从海量的数据中,如电话录音、新闻广播、会议录音等,获取感兴趣的特定人声已成为研究热点。说话人分离技术是指从多人对话中自动地将语音依据说话人进行划分,并加以标记的过程,即解决的是“什么时候由谁说”的问题。

而两说话人分离则是指将录制在同一段音轨上的两个说话人轮流讲话的录音分离,成为两段音轨,每段音轨只包含其中一个说话人的讲话录音。两说话人广泛应用于诸多领域,在广播,电视,媒体,客服中心等行业和领域有着广泛的需求。

传统的以贝叶斯信息准则(Bayesian Information Criterion,BIC)作为相似性度量的说话人分离技术,在短时对话的分离任务中能取得较好的效果,但是随着对话时长的增加,BIC的单高斯模型不足以描述不同说话人数据的分布,因而其说话人分离的效果较差。

发明内容

鉴于以上内容,有必要提出一种说话人分离模型训练方法、两说话人分离方法、终端及存储介质,事先训练说话人分离模型,能够显著的增强模型对输入的语音数据的特征提取能力,减轻网络层次加深时而性能降低的风险;根据训练好的说话人分离模型对两说话人的语音进行分离,提高了两说话人分离的准确率,尤其是在长时对话的分离任务中能取得更佳的分离效果。

本发明的第一方面提供一种说话人分离模型训练方法,所述方法包括:

获取多个人的多个音频数据;

对每一个音频数据进行预处理;

提取预处理后的音频数据的音频特征;

将所述音频特征输入至预设神经网络模型中进行训练得到矢量特征;

获取第一说话人的第一矢量特征及第二矢量特征,并根据预设第一相似度函数计算所述第一矢量特征与所述第二矢量特征之间的第一相似度;

获取第二说话人的第三矢量特征,并根据预设第二相似度函数计算所述第一矢量特征与所述第三矢量特征之间的第二相似度;

将所述第一相似度及所述第二相似度输入至预设损失函数中计算损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束说话人分离模型的训练过程,并更新所述说话人分离模型中的参数。

根据本发明的一个优选实施例,对所述音频数据进行预处理包括:

对所述音频数据进行降噪处理;

对降噪处理后的音频数据进行语音端点检测,删除无效语音,得到标准语音数据样本;

对标准语音数据样本进行标注,以表明所述标准语音数据样本所属的说话人。

根据本发明的一个优选实施例,所述预设神经网络模型采用预设层数的神经网络结构堆叠而成;每一层神经网络结构包括:第一卷积层、第一修正线性单元、第二卷积层、第二修正线性单元、平均层、全连接层及归一化层,其中,卷积层的卷积核为3*3,步长为1*1,通道数为64;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810519521.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top