[发明专利]样本生成方法、分类模型训练方法、识别方法及对应装置在审
申请号: | 202010263850.6 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111476296A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 郭灿;徐庶 | 申请(专利权)人: | 上海优扬新媒信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
地址: | 201800 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 生成 方法 分类 模型 训练 识别 对应 装置 | ||
本发明公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,以进一步减少分类模型训练的数据处理量,并基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。
技术领域
本发明涉及机器学习技术领域,更具体的说,涉及一种样本生成方法、 分类模型训练方法、识别方法及对应装置。
背景技术
现有技术在对分类模型进行训练时,需要分类模型算法工程师对获取的 原始数据集进行人工切分,得到训练集和验证集;然后由人工对训练集进行 模型特征筛选和模型参数调整。
因此,现有分类模型的训练方法需要耗费大量的人力和时间,导致分类 模型的训练效率低。
发明内容
有鉴于此,本发明公开一种样本生成方法、分类模型训练方法、识别方 法及对应装置,以实现基于特征指标和特征信息价值对预设训练集中的数据 特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量, 并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型 训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处 理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。
一种样本生成方法,包括:
获取预设训练集中每个数据特征的特征指标和特征信息价值;
基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设 训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定每个所述基础特征的特征贡献度;
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为 目标样本中的目标特征。
可选的,所述预设训练集为对样本数据集按照预设切分策略得到,所述 样本数据集中的每个数据包括:时间标签和数据特征;
按照所述预设切分策略得到所述预设训练集的过程包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得 到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随 机拆分,将拆分结果作为所述预设训练集。
可选的,所述确定每个所述基础特征的特征贡献度,具体包括:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据 以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡 献度,其中,所述第一预设训练模型包含有贡献度属性。
一种分类模型训练方法,包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二 预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采 用上述所述的样本生成方法得到的目标特征。
可选的,还包括:
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型, 得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和 评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所 述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进 行排序得到的。
一种识别方法,包括:
获取待识别数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海优扬新媒信息技术有限公司,未经上海优扬新媒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010263850.6/2.html,转载请声明来源钻瓜专利网。