[发明专利]基于海量实时互联网DPI数据的流式处理方法及系统有效
申请号: | 201611258319.X | 申请日: | 2016-12-30 |
公开(公告)号: | CN107294801B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 黄凯翔;周蓉;张国华;许睿 | 申请(专利权)人: | 江苏号百信息服务有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210006 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 实时 互联网 dpi 数据 处理 方法 系统 | ||
1.一种基于海量实时互联网DPI数据的流式处理方法,其特征在于:包括如下步骤:
一、接口协议层接收海量实时互联网DPI数据,并对所述DPI数据进行采集清洗过滤;
二、Kafka集群接收来自所述接口协议层的DPI数据,并存放在对应Topics的具体分区中;
三、Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据,且对应的处理单元Topology对这些数据进行相应的预处理,并将预处理后的结果数据输出到所述Kafka集群对应的Topics中;
四、Spark Streaming集群间隔设定时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据,对所述预处理后的DPI数据进行复制和分发,并将最终的处理结果以〈key,value〉的形式存入KV数据库集群的数据库中;
在步骤一中,对所述DPI数据进行清洗过滤包括如下步骤:
过滤清洗所述DPI数据中的HTTP POST流量,只保留HTTP GET流量;
过滤清洗HTTP GET流量中非用户点击行为的流量;
在源数据中仅保留与业务相关联的字段,并清洗其他剩余的字段,且对保留的字段的进行重新排列;
对关键字段IMEI进行MD5不可逆加密,保障数据的隐私安全;
在步骤三中,所述预处理步骤包括:清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录;
在步骤四之后还包括步骤五,在所述步骤五中,业务平台系统通过所述KV数据库集群获取权限范围内的数据,并根据注册时使用的用户名与密码,以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。
2.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法,其特征在于:所述步骤二中,将经过步骤一过滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中,即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。
3.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法,其特征在于:从步骤一到步骤五的整个处理流程所产生的时延在秒数量级。
4.一种根据权利要求1-3任一所述的基于海量实时互联网DPI数据的流式处理方法的系统,其特征在于:包括:接口协议层、Kafka集群、Storm集群、Spark Streaming集群、KV集群;
所述接口协议层,用于接收海量实时互联网,并对所述DPI数据进行清洗过滤;
所述Kafka集群,用于接收来自所述接口协议层的DPI数据,并存放在对应Topics的具体分区中;
所述Storm集群,用于间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据,且对应的处理单元Topology对这些数据进行相应的预处理,并将预处理后的结果数据输出到所述Kafka集群对应的Topics中;
所述Spark Streaming集群,间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据,对所述预处理后的DPI数据进行复制和分发,并将最终的处理结果以〈key,value〉的形式存入所述KV数据库集群的数据库中;
在所述KV数据库集群中,业务平台系统通过所述KV数据库集群获取权限范围内的数据,并根据注册时使用的用户名与密码,以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司,未经江苏号百信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611258319.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于安装的多功能开关
- 下一篇:一种压胶装置