[发明专利]生成机器学习样本的组合特征的方法及系统在审
申请号: | 202010642861.5 | 申请日: | 2017-09-08 |
公开(公告)号: | CN111797928A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 杨强;陈雨强;戴文渊;罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 田方;曾世骁 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 机器 学习 样本 组合 特征 方法 系统 | ||
提供了一种生成机器学习样本的组合特征的方法及系统。所述方法包括:获取历史数据记录,其中,历史数据记录包括多个属性信息;按照搜索策略,在基于多个属性信息生成的至少一个特征之间迭代地进行特征组合以生成候选组合特征,并选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果选择重要性较高的至少一个候选组合特征作为目标组合特征。可在使用较少运算资源的情况下有效地实现自动特征组合,提升模型效果。
本申请是申请日为2017年09月08日、申请号为201710803930.4、题为“生成机器学习样本的组合特征的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种生成机器学习样本的组合特征的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。
如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,可通过改进特征提取方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果的恶化。
然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将不同特征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另一方面,从运算效率方面考虑,也难以有效地筛选出特定的组合方式。综上所述,现有技术中难以将特征进行自动组合。
发明内容
本发明的示例性实施例旨在克服现有技术中难以对机器学习样本的特征进行自动组合的缺陷。
根据本发明的示例性实施例,提供一种生成机器学习样本的组合特征的方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属性信息;以及(B)按照搜索策略,在基于所述多个属性信息生成的至少一个特征之间迭代地进行特征组合以生成候选组合特征,并从生成的候选组合特征中选择目标组合特征以作为机器学习样本的组合特征,其中,针对每一轮迭代,对候选组合特征集合中的各个候选组合特征进行重要性的预排序;根据预排序结果从候选组合特征集合中筛选出一部分候选组合特征以组成候选组合特征池;对候选组合特征池中的各个候选组合特征进行重要性的再排序;根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特征。
可选地,在所述方法中,基于第一数量的历史数据记录进行预排序,基于第二数量的历史数据记录进行再排序,并且,第二数量不少于第一数量。
可选地,在所述方法中,根据预排序结果从候选组合特征集合中筛选出重要性较高的候选组合特征以组成候选组合特征池。
可选地,在所述方法中,候选组合特征集合包括在当前轮迭代中生成的候选组合特征;或者,候选组合特征集合包括在当前轮迭代中生成的候选组合特征以及在先前轮迭代中生成的未被选择作为目标组合特征的候选组合特征。
可选地,在所述方法中,通过将当前轮迭代中选择的目标组合特征与所述至少一个特征进行组合来生成下一轮迭代的候选组合特征;或者,通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候选组合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010642861.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种微型电机及其转子绕线方法
- 下一篇:注水式堵水气囊及其使用方法