[发明专利]一种训练样本确定方法、装置、计算机设备及存储介质在审
申请号: | 202011288666.3 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112200271A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 熊伟灼;杨青 | 申请(专利权)人: | 上海优扬新媒信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李婷婷 |
地址: | 201800 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 样本 确定 方法 装置 计算机 设备 存储 介质 | ||
1.一种训练样本确定方法,其特征在于,包括:
确定训练样本集中每个训练样本降维处理后的目标训练样本;
获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,所述比例信息表征所述至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,所述参考样本晚于所述训练样本;
根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇;
按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本。
2.根据权利要求1所述的方法,其特征在于,所述确定训练样本集中每个训练样本降维处理后的目标训练样本,包括:
确定由多个训练样本构成的训练样本集,所述训练样本指示用户的多个维度特征;
对所述训练样本指示的多个维度特征进行特征分类得到所述训练样本指示的至少一个特征组,不同的特征组属于不同的特征类别;一个维度特征仅属于一个特征组;
将所述特征组输入至预训练的与所述特征组所属特征类别对应的特征信息确定模型得到用于表征所述特征组的特征信息;
其中,所述训练样本指示的至少一个特征组的特征信息构成所述训练样本降维处理后的目标训练样本。
3.根据权利要求2所述的方法,其特征在于,与目标特征类别对应的特征信息确定模型的生成过程包括:
确定用于训练特征信息确定模型的第一样本;
对所述第一样本指示的多个维度特征进行特征分类得到所述第一样本指示的至少一个特征组;
根据所述第一样本指示的属于所述目标特征类别的特征组生成第二样本;
利用所述第二样本对待训练特征信息确定模型进行训练生成与所述目标特征类别对应的特征信息确定模型。
4.根据权利要求1所述的方法,其特征在于,所述获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,包括:
确定参考样本集中每个参考样本降维处理后的目标参考样本;
对所有所述目标参考样本进行聚类处理得到至少一个目标参考样本簇;
根据各个所述目标参考样本簇中的目标参考样本数量生成比例信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇,包括:
计算所述目标训练样本分别与所述至少一个目标参考样本簇中每个目标参考样本簇的中心点之间的距离;
根据所述目标训练样本分别与所述至少一个目标参考样本簇中每个所述目标参考样本簇的中心点之间的距离,确定所述目标训练样本所属的目标参考样本簇;
将属于同一目标参考样本簇的所有目标训练样本确定为一个与所述目标参考样本簇对应的目标训练样本簇。
6.根据权利要求5所述的方法,其特征在于,所述按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本,包括:
依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
按照距离所述目标训练样本簇的中心点的距离由近及远的顺序,从所述目标训练样本簇中抽取所述目标训练样本簇的抽样数量的目标训练样本。
7.根据权利要求6所述的方法,其特征在于,所述依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量,包括:
确定每个所述目标训练样本簇中目标训练样本数量;
根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
其中,第一目标训练样本簇的抽取数量和第二目标训练样本簇的抽样数量之间的比例与所述比例信息表征的所述第一目标训练样本簇对应的目标参考样本簇中目标参考样本数量和所述第二目标训练样本簇对应的目标参考样本簇中目标参考样本数量的比例相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优扬新媒信息技术有限公司,未经上海优扬新媒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011288666.3/1.html,转载请声明来源钻瓜专利网。