[发明专利]用于抽取特征的数据处理方法和系统有效
申请号: | 201910877370.6 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110569271B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 姚均霖;王萌;朱晓丹 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 王明远 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 抽取 特征 数据处理 方法 系统 | ||
1.一种用于抽取特征的数据处理系统,包括:
基础层,包括一个或多个数据处理函数;
计算层,包括一个或多个特征计算模块,所述特征计算模块获取调用方传入的数据和特征计算要素定义信息,所述特征计算要素定义信息包括至少一个类别的特征计算要素,每个类别的特征计算要素用于指示特征抽取处理的一种要素,所述特征计算模块从每个类别的特征计算要素中选取一个特征计算要素,以得到由取自不同类别的特征计算要素构成的特征抽取处理策略,所述特征计算模块基于所述特征抽取处理策略,从所述数据中提取出被执行特征抽取处理的数据对象,并确定对所述数据对象执行特征抽取处理的数据处理函数,所述数据包括多条数据记录,每条数据记录包括一个或多个字段,
其中,所述特征计算模块以笛卡尔积的方式从每个类别的特征计算要素中选取一个特征计算要素,以得到一个或多个所述特征抽取处理策略,所述数据处理系统还利用分布式系统中的一个或多个计算节点调用所述基础层中相应的数据处理函数,对所述数据对象进行处理,以得到一个或多个特征。
2.根据权利要求1所述的数据处理系统,其中,
所述特征计算要素定义信息包括多个特征计算要素集合,每个所述特征计算要素集合包括至少一组特征计算要素,不同组中的特征计算要素对应不同的类别,针对每个所述特征计算要素集合,所述特征计算模块以笛卡尔积的方式从每组特征计算要素中选取一个特征计算要素,以得到多个所述特征抽取处理策略。
3.根据权利要求1所述的数据处理系统,其中,
所述特征计算模块还接收用户提供的数据处理函数,并将该数据处理函数添加到所述基础层。
4.根据权利要求1所述的数据处理系统,其中,所述计算层分为实现层和应用层,
所述实现层包括一个或多个第一类型特征计算模块,所述第一类型特征计算模块仅基于从外部获取的特征计算要素定义信息,得到所述特征抽取处理策略,
所述应用层包括一个或多个第二类型特征计算模块,所述第二类型特征计算模块用于抽取与特定业务场景相对应的特征,所述第二类型特征计算模块定义了构成所述特征抽取处理策略的至少部分特征计算要素,所述至少部分特征计算要素用于指示与所述特定业务场景相对应的特征抽取处理的一种或多种要素,所述特定业务场景为一个具体业务场景。
5.根据权利要求4所述的数据处理系统,其中,
所述实现层中的第一类型特征计算模块能够调用所述基础层中的数据处理函数,并且/或者所述第一类型特征计算模块能够调用同层中的其他第一类型特征计算模块,
所述应用层中的第二类型特征计算模块能够调用所述基础层中的数据处理函数,并且/或者所述第二类型特征计算模块能够调用同层中的其他第二类型特征计算模块,并且/或者所述第二类型特征计算模块能够调用所述实现层中的第一类型特征计算模块。
6.根据权利要求1所述的数据处理系统,其中,所述基础层还包括:
检查函数,用于检查所述特征计算要素定义信息是否符合规范;和/或
标准化函数,用于将所述特征计算要素定义信息转换为符合预定形式的数据结构;和/或
常数库,用于提供一个或多个常数。
7.根据权利要求1所述的数据处理系统,其中,所述至少一个类别的特征计算要素包括:
第一类特征计算要素,包括一个或多个目标字段或目标字段组合,所述目标字段或所述目标字段组合用于指示被执行特征抽取处理的字段值所对应的字段名;和/或
第二类特征计算要素,包括一个或多个窗口或窗口组合,所述窗口或窗口组合用于指示被执行特征抽取处理的字段值所对应的范围;和/或
第三类特征计算要素,包括一个或多个分组字段或分组字段组合,所述分组字段或所述分组字段组合用于指示对所述数据进行分组所依据的字段名;和/或
第四类特征计算要素,包括一个或多个算法名称,所述算法名称用于指示被执行特征抽取处理的字段值的数据处理逻辑;和/或
第五类特征计算要素,包括一个或多个排序字段,所述排序字段用于指示数据排序所依据的字段名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877370.6/1.html,转载请声明来源钻瓜专利网。