[发明专利]一种自动特征生成系统和方法在审

专利信息
申请号: 202011285275.6 申请日: 2020-11-17
公开(公告)号: CN112434032A 公开(公告)日: 2021-03-02
发明(设计)人: 杨帆;周楚杰;黄馨 申请(专利权)人: 北京融七牛信息技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/28;G06F16/215
代理公司: 北京山允知识产权代理事务所(特殊普通合伙) 11741 代理人: 胡冰
地址: 100043 北京市石景山区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 特征 生成 系统 方法
【说明书】:

发明涉及一种自动特征生成系统,包括:数据表分析单元,用于对用户输入的数据表进行分析;用户接口单元,用于呈现数据表分析单元的分析结果,并接收用户的选择的使用字段,以及接收用户配置的数据表关联关系;数据处理单元,用于根据数据表关系结构提取样本对应的数据;特征生成单元,根据数据表关系结构,选择合适的特征生成算法进行特征生成;特征处理单元,特征处理单元对生成的特征数据进行特征分析。本发明还对应提出一种自动特征生成方法。本发明不要求使用人员有任何的技术能力和生成逻辑,仅需要提供少量关于使用哪些原始数据生成特征的信息,自动完成特征生成的全流程处理。

技术领域

本发明涉及机器学习技术领域,更具体地,涉及一种自动特征生成系统和方法。

背景技术

随着大数据人工智能技术的普及,通过机器学习算法进行数据分析处理的方法逐步被各个行业的工程人员所采用。机器学习算法的输入数据被称为特征,是通过一系列工程方法将原始数据加工而成的。目前,针对特征的自动建模方法或本发明的系统已经有了很多成熟的产品,但对于自动处理原始数据生成特征的本发明的系统产品仍然处于研究阶段。现有的包含特征生成的本发明的系统产品有以下几种:

(1)集成人工提取特征功能的数据平台,此类平台支持用户在前端界面编写提取特征的代码,系统运行代码后将特征保存为可供建模的数据表,并支持导入建模平台。此类平台的输入是原始数据,缺点是特征生成逻辑依靠工程人员编写代码完成,需要用户有较高的技术能力,无法实现自动的特征生成过程。

(2)集成特征衍生功能的自动建模平台,此类平台的特征衍生功能的主要目的是为了对已有的特征进行进一步衍生,以增强特征的表达能力,提高建模的效果。此类平台的输入是可以直接建模的特征,缺点是无法对不可建模的原始数据进行特

(3)集成半自动特征生成功能的特征平台,此类平台支持用户在前端界面指定特征生成逻辑,系统自动根据特征生成逻辑在后台生成代码并执行,生成用户指定的特征。此类平台的输入是原始数据,不需要用户编写代码,但缺点是生成的特征数量和效果都依赖于用户的业务理解和生成逻辑,无法实现自动的特征生成过程。

发明内容

针对背景技术中的问题,本发明的明目的是:自动对原始数据进行处理分析,生成正确的有效的特征。对于非专业技术人员,可以通过本发明的系统方便快捷的生成供模型建模使用的特征变量。对于专业技术人员,可以通过本发明的系统快速测试、分析或迭代特征。

本发明提出一种自动特征生成系统,包括:数据表分析单元,用于对用户输入的数据表进行分析;用户接口单元,用于呈现数据表分析单元的分析结果,并接收用户的选择的使用字段,以及接收用户配置的数据表关联关系;数据处理单元,用于根据数据表关系结构提取样本对应的数据;特征生成单元,根据数据表关系结构,选择合适的特征生成算法进行特征生成;特征处理单元,用于对生成的特征数据进行特征分析。

与现有技术相比,本发明的优点有:

(1)本发明的系统不要求使用人员有任何的技术能力和生成逻辑,仅需要提供少量关于使用哪些原始数据生成特征的信息,系统自动完成特征生成的全流程处理。

(2)本发明的系统集成对原始数据表的分析功能,自动分析原始数据的数据类型、统计指标,并对每个数据字段自动给出是否建议使用的建议。该功能帮助使用者详细了解所选原始数据的基本情况,帮助判断使用该原始数据进行特征生成是否合理。

(3)本发明的系统集成数据提取、清洗加工功能,自动根据用户指定的数据表及其关系,从原始数据表中提取样本对应的数据。可选的,系统可以自动的完成数据清洗、数据回溯、数据分窗等功能。

(4)本发明的系统集成多种特征生成算法,自动根据用户指定的数据表及其关系,选择合适的算法进行特征加工。不同的特征生成算法保证了不同形式的数据表,如关系型数据表、宽表型数据表,都能够被正确的处理并生成效果较好的特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京融七牛信息技术有限公司,未经北京融七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011285275.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top