[发明专利]生成机器学习样本的组合特征的方法及系统在审
申请号: | 201710804197.8 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107909087A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 陈雨强;杨强;戴文渊;罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 北京铭硕知识产权代理有限公司11286 | 代理人: | 曾世骁,张云珠 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 机器 学习 样本 组合 特征 方法 系统 | ||
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种生成机器学 习样本的组合特征的方法及系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数 据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个 示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的 各个事项,这些事项可称为“属性”。
如何将原始数据记录的各个属性转化为机器学习样本的特征,会对机器 学习模型的效果带来很大的影响。事实上,机器学习模型的预测效果与模型 的选择、可用的数据和特征的提取等有关。也就是说,可通过改进特征提取 方式来提高模型预测效果,反之,如果特征提取不适当,则将导致预测效果 的恶化。
然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器 学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着 不同行业的不同实践经验,导致很难达到满意的效果。特别地,在将不同特 征进行组合时,一方面,难以从预测效果方面把握将哪些特征进行组合,另 一方面,从运算效率方面考虑,也难以有效地筛选出特定的组合方式。综上 所述,现有技术中难以将特征进行自动组合。
发明内容
本发明的示例性实施例旨在克服现有技术中难以对机器学习样本的特征 进行自动组合的缺陷。
根据本发明的示例性实施例,提供一种生成机器学习样本的组合特征的 方法,包括:(A)获取历史数据记录,其中,所述历史数据记录包括多个属 性信息;以及(B)按照启发式搜索策略,在基于所述多个属性信息生成的至 少一个特征之间逐阶段地进行特征组合以生成候选组合特征,其中,针对每 一阶段,从候选组合特征集合中选择目标组合特征以作为机器学习样本的组 合特征。
可选地,在所述方法中,所述至少一个特征为至少一个离散特征,其中, 通过对所述多个属性信息之中的至少一个连续值属性信息和/或离散值属性 信息进行处理而生成所述离散特征;或者,所述至少一个特征为至少一个连 续特征,其中,通过对所述多个属性信息之中的至少一个连续值属性信息和/ 或离散值属性信息进行处理而生成所述连续特征。
可选地,在所述方法中,在所述启发式搜索策略下,通过将当前阶段中 选择的目标组合特征与所述至少一个特征进行组合来生成下一阶段的候选组 合特征。
可选地,在所述方法中,在所述启发式搜索策略下,通过在当前阶段和 先前阶段中选择的目标组合特征之间进行两两组合来生成下一阶段的候选组 合特征。
可选地,在所述方法中,候选组合特征集合包括在当前阶段中生成的候 选组合特征。
可选地,在所述方法中,候选组合特征集合包括在当前阶段中生成的候 选组合特征以及在先前阶段中生成的未被选择作为目标组合特征的全部候选 组合特征。
可选地,在所述方法中,候选组合特征集合包括在当前阶段中生成的候 选组合特征以及在先前阶段中生成的未被选择作为目标组合特征的一部分候 选组合特征。
可选地,在所述方法中,所述一部分候选组合特征为在先前阶段中生成 的未被选择作为目标组合特征的候选组合特征之中重要性较高的候选组合特 征。
可选地,在所述方法中,目标组合特征为候选组合特征集合中重要性较 高的候选组合特征。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组 合特征的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行 如上所述的方法的计算机程序。
根据本发明的另一示例性实施例,提供一种用于生成机器学习样本的组 合特征的计算装置,包括存储部件和处理器,其中,存储部件中存储有计算 机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执 行如上所述的方法。
根据本发明的另一示例性实施例,提供一种生成机器学习样本的组合特 征的系统,包括:数据记录获取装置,用于获取历史数据记录,其中,所述 历史数据记录包括多个属性信息;候选组合特征生成装置,用于按照启发式 搜索策略,在基于所述多个属性信息生成的至少一个特征之间逐阶段地进行 特征组合以生成候选组合特征;以及目标组合特征选择装置,用于针对每一 阶段,从候选组合特征集合中选择目标组合特征以作为机器学习样本的组合 特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710804197.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:丙烯腈工业废气的氧化脱氰催化剂
- 下一篇:处理含氰废气的催化剂