[发明专利]样例三元组的获取方法、装置、计算机设备以及存储介质有效
申请号: | 201810557202.4 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108830201B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 赵峰;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三元 获取 方法 装置 计算机 设备 以及 存储 介质 | ||
本发明揭示了样例三元组的获取方法,包括:在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组。
技术领域
本申请涉及到机器学习领域,特别是涉及到样例三元组的获取方法、装置、计算机设备以及存储介质。
背景技术
现有的样例三元组的选择是从整个训练数据中筛选的,导致样例三元组的总数量严重膨胀,其总数量的数量级跟样例数量的数量级是一个三次方的比例关系,导致现有方法获取出的样例三元组需要分批输入到网络模型中进行模型训练,但由于将每一分批的样例三元组送入训练模型中进行模型训练时,都会更改训练模型参数,使得训练模型训练时的各分批次的训练模型参量不同,使得后批次进入训练模型的样例三元组与训练模型的当前参量产生不匹配,样例三元组的效用逐渐下降。因此,从批次数量中合理获取样例三元组成为亟待解决的问题。
发明内容
本申请的主要目的为提供一种样例三元组的获取方法,旨在解决现有样例三元组的获取方法导致样例三元组的数量过于庞大影响训练模型的训练过程。
本申请提出一种样例三元组的获取方法,其特征在于,包括:
在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组;
选择所述多个样例二元组中的第一样例二元组,并计算第一样例二元组中的两个第一样例之间的第一矢量距离,以及分别计算第一样例二元组中指定的目标第一样例与每一个第二样例之间的第二矢量距离;其中,所述第二样例为预设的目标批次数据中除所述第一样例之外的样例数据;
根据每一个第二矢量距离与所述第一矢量距离的差量,筛选最大差量对应的第二样例;
将最大差量对应的第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组,从而得到所述目标批次数据中的各个指定人对应的每个样例二元组所对应的所有样例三元组。
优选地,所述在预设的目标批次数据中筛选属于每一个指定人的所有第一样例,并将所述所有第一样例两两组合以得到每一个指定人对应的多个样例二元组的步骤,包括:
将训练数据拆分成包含指定数量样例的多个批次数据;
将所述多个批次数据中的目标批次数据输入到预设训练模型中,通过预设训练模型的正向训练获取到所述每个批次数据中所述指定数量样例分别对应的矢量;
筛选所述目标批次数据中属于某一指定人的所有第一样例,并将所述第一样例进行两两组合形成多个所述样例二元组,其中第一样例包含与其对应的矢量。
优选地,所述将最大差量对应的所述第二样例与所述第一样例二元组组成所述第一样例二元组对应的多个样例三元组的步骤之后,包括:
将所述训练数据中的多个所述批次数据中所有第一样例二元组分别对应的所有样例三元组汇总成样例三元组训练集;
将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练。
优选地,所述第一样例和所述第二样例为说话人的话语样例,所述二分类网络模型为说话人确认网络模型;所述将所述样例三元组训练集输入以Triplet Loss为损失函数的二分类网络模型中进行模型训练的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810557202.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像处理方法、装置和计算机存储介质
- 下一篇:酒驾人员身份验证方法及装置