[发明专利]统一地执行特征抽取的方法及系统有效
申请号: | 201810954494.5 | 申请日: | 2018-08-21 |
公开(公告)号: | CN109144648B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 黄亚建;王太泽;邓龙;范晓亮;刘晨璐;刘永超;孙迪 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F9/451 | 分类号: | G06F9/451 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 徐璐璐;郭鸿禧 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 执行 特征 抽取 方法 系统 | ||
1.一种统一地执行特征抽取的方法,其中,所述方法包括:
获取用于定义与特征抽取相关的处理逻辑的特征抽取脚本;
解析所述特征抽取脚本,以生成用于进行特征抽取的执行计划;以及
基于特征抽取场景,通过本机或集群执行生成的执行计划,
其中,基于特征抽取场景通过本机或集群执行生成的执行计划的步骤包括:
自动确定特征抽取场景;
当确定特征抽取场景为在线特征抽取场景时,通过本机以单机模式执行生成的执行计划;以及
当确定特征抽取场景为离线特征抽取场景时,通过集群以分布式模式执行生成的执行计划,
其中,解析所述特征抽取脚本以生成用于进行特征抽取的执行计划的步骤包括:按处理顺序分割所述特征抽取脚本所定义的处理逻辑,来生成用于进行特征抽取的执行计划,其中,所述执行计划是由节点构成的有向无环图,所述节点与分割后的处理逻辑对应,且所述节点之间的连接关系基于分割后的各处理逻辑部分的输入变量和/或输出变量之间的关系被确定,
其中,所述处理逻辑涉及在至少一个时间窗口下进行特征抽取,并且,按处理顺序分割所述特征抽取脚本所定义的处理逻辑来生成用于进行特征抽取的执行计划的步骤包括:针对各个时间窗口,分别按处理顺序分割相应的处理逻辑来生成用于进行特征抽取的执行计划,
其中,所述处理逻辑涉及在窗口大小为1的时间窗口下进行非时序特征抽取和/或在窗口大小不为1的时间窗口下进行时序特征抽取。
2.根据权利要求1所述的方法,其中,基于特征抽取场景通过本机或集群执行生成的执行计划的步骤包括:基于特征抽取场景,通过本机或集群实现与各个节点对应的处理逻辑来执行生成的执行计划。
3.根据权利要求1所述的方法,其中,所述节点包括与用于从数据表获取特征的处理逻辑对应的计算节点。
4.根据权利要求3所述的方法,其中,所述节点还包括与用于进行数据表拼接的处理逻辑对应的拼表节点和/或与用于进行特征汇总的处理逻辑对应的特征拼接节点。
5.根据权利要求2所述的方法,其中,通过本机或集群实现与计算节点对应的处理逻辑包括:通过本机或集群将与计算节点对应的处理逻辑编译为至少一个可执行文件,并运行所述至少一个可执行文件,
其中,在将与计算节点对应的处理逻辑编译为可执行文件的过程中,将所述处理逻辑之中的公共子表达式替换为中间变量,并且/或者,将所述处理逻辑之中运算关系紧密且独立于其他处理逻辑的部分处理逻辑编译在同一个可执行文件中。
6.根据权利要求1所述的方法,其中,所述时间窗口由来源数据表、划分基准字段、时间基准字段、时间跨度和/或窗口大小来定义。
7.根据权利要求1所述的方法,其中,当特征抽取场景为离线特征抽取场景时,通过集群以分布式模式执行生成的执行计划的步骤包括:
当特征抽取场景为离线特征抽取场景时,向用户提供候选集群的列表;以及
通过用户从列表中选择的集群以分布式模式执行生成的执行计划。
8.根据权利要求4所述的方法,其中,用于进行数据表拼接的处理逻辑包括用于针对特征的来源字段进行数据表拼接的处理逻辑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810954494.5/1.html,转载请声明来源钻瓜专利网。