[发明专利]一种数据提取方法、装置及设备在审
申请号: | 201910796259.4 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110502591A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 刘少伟;高元胜;徐嘉亮;董畅;徐唐;沈仁奎;邓鑫鑫 | 申请(专利权)人: | 北京思维造物信息科技股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F9/54 |
代理公司: | 11623 北京晋德允升知识产权代理有限公司 | 代理人: | 王戈<国际申请>=<国际公布>=<进入国 |
地址: | 100000 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 订阅消息 提取数据 消息中间件 集合 标识集合 目标消息 数据提取 流数据处理 装置及设备 标记目标 时间段 引擎 数据库 存储 发布 | ||
1.一种数据提取方法,其特征在于,包括:
流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
2.如权利要求1所述的方法,其特征在于,所述将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息,具体包括:
对于所述订阅消息集合中的任意一条订阅消息,确定所述任意一条订阅消息的数据标识;
判断所述任意一条订阅消息的数据标识是否与所述待提取数据标识集合中的至少一个待提取数据标识一致;
若是,则将所述任意一条订阅消息确定为一条目标消息。
3.如权利要求1所述的方法,其特征在于,所述从消息中间件处获取订阅消息集合之前,还包括:
发送订阅请求至消息中间件,以请求订阅指定主题的消息;
所述从消息中间件处获取订阅消息集合,具体包括:
从消息中间件处获取所述指定主题中的消息,得到订阅消息集合,所述指定主题中的消息是终端设备基于即时通信网关发送至所述消息中间件的埋点数据。
4.如权利要求3所述的方法,其特征在于,所述流数据处理引擎获取待提取数据标识集合,具体包括:
流数据处理引擎从数据库获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识是根据人工经验而预先设置,所述待提取数据标识集合中的待提取数据标识包括用户唯一标识及设备唯一标识中的至少一种,所述待提取数据标记用于标记指定终端设备生成的埋点数据,或者,所述待提取数据标识用于标记指定用户的埋点数据。
5.如权利要求1所述的方法,其特征在于,所述流数据处理引擎为Spark或Flink中的任意一种;所述消息中间件为Kafka、RabbitMQ或RocketMQ中的任意一种。
6.一种埋点验证方法,其特征在于,包括:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于权利要求1中的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
7.如权利要求6所述的方法,其特征在于,所述最新埋点配置文件中的埋点配置信息包括:控件标识、埋点标识及埋点采集信息三者之间的关联关系;
所述根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,具体包括:
对于所述待验证埋点数据集合中的任意一个埋点数据,确定所述任意一个埋点数据对应的埋点标识;
从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;
判断所述任意一个埋点数据与所述埋点采集信息是否匹配;
若是,则确定所述任意一个埋点数据通过验证;
否则,确定所述任意一个埋点数据未通过验证。
8.如权利要求7所述的方法,其特征在于,所述埋点采集信息用于指示待采集字段;
所述判断所述任意一个埋点数据与所述埋点采集信息是否匹配,具体包括:
判断所述任意一个埋点数据中是否包含所述埋点采集信息所指示的全部待采集字段,且所述任意一个埋点数据中的各个字段均不为空。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京思维造物信息科技股份有限公司,未经北京思维造物信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910796259.4/1.html,转载请声明来源钻瓜专利网。