[发明专利]生成机器学习样本的组合特征的方法及系统在审

专利信息
申请号: 202010658034.5 申请日: 2017-09-28
公开(公告)号: CN111797998A 公开(公告)日: 2020-10-20
发明(设计)人: 戴文渊;杨强;陈雨强;张舒羽;栾淑君;孙迪 申请(专利权)人: 第四范式(北京)技术有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06K9/62
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 苏银虹;张云珠
地址: 100085 北京市海淀区清*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 生成 机器 学习 样本 组合 特征 方法 系统
【说明书】:

提供一种生成机器学习样本的组合特征的方法及系统。所述方法包括:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。根据所述方法及系统,用户只需通过交互界面来设置用于限定如何进行特征组合的相关配置项,即可实现自动特征组合,既提升了用户体验,也提升了机器学习模型的效果。

本申请是申请日为2017年09月28日、申请号为201710898898.2、题为“生成机器学习样本的组合特征的方法及系统”的专利申请的分案申请。

技术领域

本发明总体说来涉及人工智能领域,更具体地讲,涉及一种生成机器学习样本的组合特征的方法及系统。

背景技术

现阶段,训练机器学习模型的基本过程主要包括:

1、导入包含历史数据记录的数据集(例如,数据表);

2、完成特征工程,其中,通过对数据集中的数据记录的属性信息进行各种处理,以得到各个特征(例如,可包括组合特征),这些特征构成的特征向量可作为机器学习样本;

3、训练模型,其中,按照设置的机器学习算法(例如,逻辑回归算法、决策树算法、神经网络算法等),基于经过特征工程所得到的机器学习样本来学习出模型。

在上述过程中,产生特征的处理很重要,它会影响模型的优劣。数据表中每条数据记录可包括多个属性信息(即,字段),而特征可指示各字段本身、或字段的局部、或字段的组合等各种字段处理(或运算)结果,以便更好地反映数据分布以及字段间的内在关联与潜在含义。以数据挖掘领域作为示例,在准确提取特征的基础上,特征之间还可进行不同的组合来帮助学习过程更好地提炼数据规律,从多个角度透析数据分布中的内在关联与潜在涵义。特征工程质量好坏直接决定了机器学习问题刻画的准确性,进而影响模型的优劣。

在现有的机器学习平台上,可采用基于图形界面的交互方式来完成机器学习模型训练流程,而不需要用户亲自编写程序代码。然而,在特征工程环节,却往往是将人为设定的特征组合方式手动地输入到平台系统中。也就是说,用户需要预先获取特定的特征组合方式,而无法借助平台来有效地实现自动特征组合。

并且,为了预先获取特征组合方式,用户需要对业务场景有深刻理解,即,用户凭借业务经验来手动地对特征进行组合,并且一般在机器学习过程中,所使用数据的数据量都比较大,用户有时不能全面地分析数据,导致制定一些无效的组合特征,为了提高组合特征的效果,用户需要进行不断的尝试,面对大数据量和高维特征时,这样的工作需要花费较长的时间。这种情况下不仅增加了工作量,还降低了工作效率。

发明内容

本发明的示例性实施例在于提供一种生成机器学习样本的组合特征的方法及系统,以解决现有技术存在的不能便捷地在机器学习系统中进行自动特征组合的问题。

根据本发明的示例性实施例,提供一种生成机器学习样本的组合特征的方法,包括:(A)获取能够进行组合的单位特征;(B)向用户提供用于设置特征组合配置项的图形界面,其中,所述特征组合配置项用于限定如何在单位特征之间进行特征组合;(C)接收用户为了设置特征组合配置项而在图形界面上执行的输入操作,并根据所述输入操作来获取用户设置的特征组合配置项;以及(D)基于获取的特征组合配置项对单位特征之中的待组合特征进行组合,以生成机器学习样本的组合特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010658034.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top