[发明专利]一种使用pca和特征交叉的特征工程建模方法和系统在审

专利信息
申请号: 201910978519.X 申请日: 2019-10-15
公开(公告)号: CN110781174A 公开(公告)日: 2020-02-11
发明(设计)人: 袁锦程;王维强;许辽萨;赵闻飙;易灿;崔世文 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06K9/62;G06N20/00
代理公司: 11315 北京国昊天诚知识产权代理有限公司 代理人: 许振新;朱文杰
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 工程建模 特征交叉 热编码 筛选 特征数据 特征执行 共线性 算法 输出 检测
【说明书】:

本公开涉及一种使用pca和特征交叉的特征工程建模的方案,包括:对特征数据进行特征相关检测;使用独热编码对特征进行编码,并对经编码的特征执行pca算法,其中在执行独热编码的过程中,还可以对所述特征进行特征交叉;通过执行共线性选择和特征重要性选择对所述特征进行筛选;以及将筛选出的特征输出用于特征工程建模。

技术领域

本公开涉及一种用于特征工程的建模方案,具体而言,涉及一种使用pca和特征交叉的特征工程建模方法和系统。

背景技术

随着计算机技术的发展,基于机器学习模型的人工智能(AI)技术也随之兴起。机器学习模型的理论基础是模型的构建,而模型构建的基础则是数据和特征。特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。而业界广泛流传这样一句话:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征的选取对于所构建的模型的好坏起到了至关重要的作用。

基于此,针对建模所要使用的特征,业界提出了一种“特征工程(FeatureEngineering)”的概念。具体而言,特征工程是指:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。所述过程包含了特征提取、特征构建、特征筛选等模块。特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。但随着大数据技术的发展,采集到的数据量越来越多,类型越来越复杂,所以,对特征工程也提出了更高的要求。

因此,需要一种能够使得特征工程更加快速、智能和自动化的优化方案。

发明内容

本公开涉及一种使用pca和特征交叉的特征工程建模的方案,以加快并自动化特征工程的建模过程。

根据本公开的第一方面,提供了一种用于特征工程建模的方法,包括:对特征数据进行特征相关检测;使用独热编码对特征进行编码,并对经编码的特征执行pca算法,其中在执行独热编码的过程中,还可以对所述特征进行特征交叉;通过执行共线性选择和特征重要性选择对所述特征进行筛选;以及将筛选出的特征输出用于特征工程建模。

根据本公开的第二方面,提供了一种用于特征工程建模的系统,包括:特征相关检测模块,被配置为对特征数据进行特征相关检测;pca和特征交叉模块,被配置为使用独热编码对特征进行编码,并对经编码的特征执行pca算法,其中在执行所述独热编码的过程中,对所述特征进行特征交叉;以及共线性选择和特征重要性选择模块,被配置为通过执行共线性选择和特征重要性选择对所述特征进行筛选,并将筛选出的特征输出用于特征工程建模。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。

附图说明

为了描述可获得本公开的上述和其它优点和特征的方式,将通过参考附图中示出的本公开的具体实施例来呈现以上简要描述的本公开的更具体描述。可以理解,这些附图只描绘了本公开的各典型实施例,并且因此不被认为是对其范围的限制,将通过使用附图并利用附加特征和细节来描述和解释本公开,在附图中:

图1示出了根据本公开的实施例的一种使用pca和特征交叉的特征工程建模方法。

图2示出了一种示例性的加入text特征和没有加入text特征的类GBDT模型的曲线图。

图3示出了根据本公开的实施例的一种使用pca和特征交叉的特征工程建模的系统。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910978519.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top