[发明专利]一种基于分布式流计算的数据处理方法及系统有效
申请号: | 201810968190.4 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109359109B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 王一光;孙尚椿;王琳;朱冠胤 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06Q30/06 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 计算 数据处理 方法 系统 | ||
1.一种基于分布式流计算的数据处理方法,数据处理系统包括数据获取节点、特征提取节点、特征统计节点,所述方法包括:
所述数据获取节点在通过安装的数据获取程序加载业务方指定的数据源配置信息之后,通过所述数据获取程序,从所述数据源配置信息中记载的数据源获取业务数据流,并将所述业务数据流传递给所述特征提取节点;
所述特征提取节点在通过安装的特征提取程序加载所述业务方指定的提取规则配置信息之后,依次针对所述业务数据流中的每个业务数据,通过所述特征提取程序,根据所述提取规则配置信息中记载的提取规则,从该业务数据中提取信息并组织成通用数据结构,将组织成所述通用数据结构的信息作为特征信息,以及,将得到的特征信息流传递给所述特征统计节点;所述通用数据结构包括:组标识字段、备注字段和至少一个键值对key-value字段;
所述特征统计节点在通过安装的特征统计程序加载所述业务方指定的统计规则配置信息之后,通过所述特征统计程序,根据所述统计规则配置信息中记载的统计规则,
从所述特征信息流中,筛选出组标识字段的值为指定组标识的特征信息;所述指定组标识是所述统计规则配置信息中记载的统计规则指定的;
根据筛选出的特征信息,确定若干备用特征信息;
将备注字段的值满足统计条件的备用特征信息确定为目标特征信息;所述统计条件是所述统计规则配置信息中记载的统计规则指定的;
针对所述各目标特征信息包含的每个key-value,将各目标特征信息的该key-value的value相加,并将得到的和与该key-value的key组成一个综合key-value;
根据各综合key-value,确定统计结果,并将所述统计结果输出;
其中,所述统计结果具有所述通用数据结构,所述统计结果的组标识字段的值为所述指定组标识,所述统计结果的备注字段的值为所述统计条件,所述统计结果的各key-value字段的值与各综合key-value一一对应。
2.如权利要求1所述的方法,所述业务数据流,具体包括:
用户行为日志队列;
根据所述提取规则配置信息中记载的提取规则,从该业务数据中提取信息并组织成所述通用数据结构,具体包括:
根据所述提取规则配置信息中记载的提取规则,将该用户行为日志中包含的用户标识写入所述通用数据结构的组标识字段;以及
根据所述提取规则,将该用户行为日志中包含的时间信息写入所述备注字段;以及
根据所述提取规则,从该用户行为日志中提取的若干行为内容字段,针对提取的每个行为内容字段,以该行为内容字段为key,以预设数值为value,组成key-value,并将组成的key-value写入所述通用数据结构的key-value字段。
3.如权利要求2所述的方法,将备注字段的值满足统计条件的备用特征信息确定为目标特征信息,具体包括:
将备注字段中的时间信息落入指定时间段的备用特征信息,确定为目标特征信息。
4.如权利要求3所述的方法,根据筛选出的特征信息,确定若干备用特征信息,具体包括:
针对每个缓存周期,对在该缓存周期内筛选到缓存中的特征信息进行统计,得到该缓存周期对应的第一中间结果;所述缓存周期小于所述指定时间段对应的时间间隔,所述第一中间结果具有所述通用数据结构;
将该缓存周期对应的第一中间结果写入数据库,以便确定若干备用特征信息。
5.如权利要求4所述的方法,确定若干备用特征信息,具体包括:
针对每个写入周期,将在该写入周期内写入数据库的第一中间结果统计成第二中间结果,作为一个备用特征信息;所述写入周期大于所述缓存周期,且小于所述指定时间段对应的时间间隔,所述第二中间结果具有所述通用数据结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810968190.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:报表提取方法、装置、存储介质及电子设备
- 下一篇:一种信息管理系统