[发明专利]样本生成方法、分类模型训练方法、识别方法及对应装置在审

申请号：	202010263850.6	申请日：	2020-04-07
公开（公告）号：	CN111476296A	公开（公告）日：	2020-07-31
发明（设计）人：	郭灿;徐庶	申请（专利权）人：	上海优扬新媒信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	薛娇
地址：	201800 上海市嘉***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	样本生成方法分类模型训练识别对应装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置，在生成分类模型的样本时，首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征，以减少分类模型训练时的数据处理量，然后基于每个基础特征的特征贡献度，从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征，以进一步减少分类模型训练的数据处理量，并基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据，生成分类模型。因此，本发明不仅实现了数据的自动筛选，而且数据处理量小，从而大大节省了人力和时间，提高了分类模型的训练效率。

技术领域

本发明涉及机器学习技术领域，更具体的说，涉及一种样本生成方法、分类模型训练方法、识别方法及对应装置。

背景技术

现有技术在对分类模型进行训练时，需要分类模型算法工程师对获取的原始数据集进行人工切分，得到训练集和验证集；然后由人工对训练集进行模型特征筛选和模型参数调整。

因此，现有分类模型的训练方法需要耗费大量的人力和时间，导致分类模型的训练效率低。

发明内容

有鉴于此，本发明公开一种样本生成方法、分类模型训练方法、识别方法及对应装置，以实现基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征，以减少分类模型训练时的数据处理量，并进一步基于特征贡献度对多个基础特征进行筛选，以进一步减少分类模型训练的数据处理量，因此，本发明不仅实现了数据的自动筛选，而且数据处理量小，从而大大节省了人力和时间，提高了分类模型的训练效率。

一种样本生成方法，包括：

获取预设训练集中每个数据特征的特征指标和特征信息价值；

基于所述特征指标和所述特征信息价值，按照预设筛选规则对所述预设训练集的数据特征进行筛选，得到所述预设训练集的多个基础特征；

确定每个所述基础特征的特征贡献度；

从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。

可选的，所述预设训练集为对样本数据集按照预设切分策略得到，所述样本数据集中的每个数据包括：时间标签和数据特征；

按照所述预设切分策略得到所述预设训练集的过程包括：

将所述样本数据集中的各个数据，基于时间标签按照时序进行排序，得到目标样本数据集；

将所述目标样本数据集中位于预设位置的样本数据集，按照预设比例随机拆分，将拆分结果作为所述预设训练集。

可选的，所述确定每个所述基础特征的特征贡献度，具体包括：

采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练，得到每个所述基础特征的特征贡献度，其中，所述第一预设训练模型包含有贡献度属性。

一种分类模型训练方法，包括：