[发明专利]统一地执行特征抽取的方法及系统在审

专利信息
申请号: 202010795856.8 申请日: 2018-08-21
公开(公告)号: CN111949349A 公开(公告)日: 2020-11-17
发明(设计)人: 黄亚建;王太泽;邓龙;范晓亮;刘晨璐;刘永超;孙迪 申请(专利权)人: 第四范式(北京)技术有限公司
主分类号: G06F9/451 分类号: G06F9/451
代理公司: 北京铭硕知识产权代理有限公司 11286 代理人: 苏银虹;徐璐璐
地址: 100085 北京市海淀区清*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 统一 执行 特征 抽取 方法 系统
【说明书】:

提供一种统一地执行特征抽取的方法及系统。所述方法包括:获取用于定义与特征抽取相关的处理逻辑的特征抽取脚本;解析所述特征抽取脚本,以生成用于进行特征抽取的执行计划;以及基于特征抽取场景,通过本机或集群执行生成的执行计划。根据所述方法及系统,能够在各种特征抽取场景下,统一地执行特征抽取。

本申请是申请日为2018年08月21日、申请号为201810954494.5、题为“统一地执行特征抽取的方法及系统”的专利申请的分案申请。

技术领域

本发明总体说来涉及数据处理领域,更具体地讲,涉及一种统一地执行特征抽取的方法及系统。

背景技术

随着海量数据的出现,人们倾向于使用机器学习技术来从数据中挖掘出价值。机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型;在面对新的情况时,利用训练好的模型来得到相应的预测结果。不论是训练机器学习模型的阶段,还是利用机器学习模型进行预估的阶段,都需要对数据进行特征抽取来得到包括各种特征的机器学习样本。

当前的机器学习平台或系统主要实现的是训练机器学习模型的功能,即,利用已收集好的大规模数据进行特征抽取、模型构建、模型调优等操作的过程,该阶段不重视响应速度,但重视吞吐量,即单位时间内处理的数据量。如果需要使用已训练好的机器学习模型进行预估,则往往在乎的是响应速度,而不关注吞吐量,这使得技术人员不得不针对预估阶段进行额外开发,尤其需要针对特征抽取过程进行额外开发,导致实现预估的成本较高。

发明内容

本发明的示例性实施例在于提供一种统一地执行特征抽取的方法及系统,其能够在各种特征抽取场景下,统一地执行特征抽取。

根据本发明的示例性实施例,提供一种统一地执行特征抽取的方法,其中,所述方法包括:获取用于定义与特征抽取相关的处理逻辑的特征抽取脚本;解析所述特征抽取脚本,以生成用于进行特征抽取的执行计划;以及基于特征抽取场景,通过本机或集群执行生成的执行计划。

可选地,基于特征抽取场景通过本机或集群执行生成的执行计划的步骤包括:当特征抽取场景为在线特征抽取场景时,通过本机以单机模式执行生成的执行计划;以及当特征抽取场景为离线特征抽取场景时,通过集群以分布式模式执行生成的执行计划。

可选地,解析所述特征抽取脚本以生成用于进行特征抽取的执行计划的步骤包括:按处理顺序分割所述特征抽取脚本所定义的处理逻辑,来生成用于进行特征抽取的执行计划。

可选地,所述处理逻辑涉及在至少一个时间窗口下进行特征抽取,并且,按处理顺序分割所述特征抽取脚本所定义的处理逻辑来生成用于进行特征抽取的执行计划的步骤包括:针对各个时间窗口,分别按处理顺序分割相应的处理逻辑来生成用于进行特征抽取的执行计划。

可选地,所述执行计划是由节点构成的有向无环图,其中,所述节点与分割后的处理逻辑对应,并且,基于特征抽取场景通过本机或集群执行生成的执行计划的步骤包括:基于特征抽取场景,通过本机或集群实现与各个节点对应的处理逻辑来执行生成的执行计划。

可选地,所述节点包括与用于从数据表获取特征的处理逻辑对应的计算节点。

可选地,所述节点还包括与用于进行数据表拼接的处理逻辑对应的拼表节点和/或与用于进行特征汇总的处理逻辑对应的特征拼接节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010795856.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top