[发明专利]针对机器学习的特征处理方法及特征处理系统有效
申请号: | 201610880712.6 | 申请日: | 2016-10-09 |
公开(公告)号: | CN107871166B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 马铁良 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 机器 学习 特征 处理 方法 系统 | ||
提供了一种针对机器学习的特征处理方法及特征处理系统,其中,所述特征处理方法包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。通过上述方式,可获得与连续特征相应的包括分箱特征的多个特征,使得组成机器学习样本的特征更为有效,从而提升了机器学习模型的效果。
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种针对机器学习的特征处理方法及特征处理系统。
背景技术
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。
这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。
如何将原始数据记录的各个属性转化为机器学习样本的特征,很可能对机器学习模型的效果带来很大的影响。例如,在图像或音频信号处理领域,常常将特征按照频域中的局部块进行直方图化(例如,第US20160247502A1 号美国专利申请、第US20160239528A1号美国专利申请和第CN101276060 号中国专利等),一方面,这种经典的处理方法依托于图像或音频信号的固有特性,现有技术中也普遍采用单一的直方图划分方式而缺乏相应的补充,另一方面,在很多实际的应用场景中,数据的内在规律很难如图像或音频信号那样明显,因此,无法有效地捕捉到适当的直方图划分方式,比如,按照传统分箱方式提取的特征很容易使得机器学习模型不稳定,即,在不同的分箱方式下,同样的模型对同样的数据预测效果差距很大,学习的效果非常依赖于箱数的选择,显著增加了模型调参的工作量,也导致模型较难到达最佳效果。
事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,一方面,可通过改进特征提取方式来提高模型预测效果,而另一方面,如果特征提取不适当,则将导致预测效果的恶化。
然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。
发明内容
本发明的示例性实施例旨在克服现有的机器学习特征处理方式难以达到满意的机器学习效果的缺陷。
根据本发明的示例性实施例,提供一种针对机器学习的特征处理方法,包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B) 针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。
可选地,在所述特征处理方法中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。
可选地,在所述特征处理方法中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。
可选地,在所述特征处理方法中,分箱方式包括有监督分箱和/或无监督分箱下的分箱方式。
可选地,在所述特征处理方法中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。
可选地,在所述特征处理方法中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610880712.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞行汽车及制造方法
- 下一篇:一种工程机械车架悬挂结构