[发明专利]样本生成方法、分类模型训练方法、识别方法及对应装置在审
申请号: | 202010263850.6 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111476296A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 郭灿;徐庶 | 申请(专利权)人: | 上海优扬新媒信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 201800 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 生成 方法 分类 模型 训练 识别 对应 装置 | ||
1.一种样本生成方法,其特征在于,包括:
获取预设训练集中每个数据特征的特征指标和特征信息价值;
基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定每个所述基础特征的特征贡献度;
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。
2.根据权利要求1所述的样本生成方法,其特征在于,所述预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征;
按照所述预设切分策略得到所述预设训练集的过程包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。
3.根据权利要求1所述的样本生成方法,其特征在于,所述确定每个所述基础特征的特征贡献度,具体包括:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。
4.一种分类模型训练方法,其特征在于,包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用权利要求1~3任意一项所述的样本生成方法得到的目标特征。
5.根据权利要求4所述的分类模型训练方法,其特征在于,还包括:
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。
6.一种识别方法,其特征在于,包括:
获取待识别数据;
调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为如权利要求4或5所述的分类模型训练方法生成的模型;
获取对所述待识别数据的识别结果。
7.一种样本生成装置,其特征在于,包括:
特征获取单元,用于获取预设训练集中每个数据特征的特征指标和特征信息价值;
基础特征筛选单元,用于基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定单元,用于确定每个所述基础特征的特征贡献度;
目标特征筛选单元,用于从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。
8.根据权利要求7所述的样本生成装置,其特征在于,还包括:
切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;
所述切分单元具体用于:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特征;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。
9.根据权利要求7所述的样本生成装置,其特征在于,所述确定单元具体用于:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优扬新媒信息技术有限公司,未经上海优扬新媒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010263850.6/1.html,转载请声明来源钻瓜专利网。