[发明专利]基于海量实时互联网DPI数据的流式处理方法及系统有效

专利信息
申请号: 201611258319.X 申请日: 2016-12-30
公开(公告)号: CN107294801B 公开(公告)日: 2020-03-31
发明(设计)人: 黄凯翔;周蓉;张国华;许睿 申请(专利权)人: 江苏号百信息服务有限公司
主分类号: H04L12/26 分类号: H04L12/26;H04L29/08
代理公司: 南京钟山专利代理有限公司 32252 代理人: 戴朝荣
地址: 210006 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 海量 实时 互联网 dpi 数据 处理 方法 系统
【权利要求书】:

1.一种基于海量实时互联网DPI数据的流式处理方法,其特征在于:包括如下步骤:

一、接口协议层接收海量实时互联网DPI数据,并对所述DPI数据进行采集清洗过滤;

二、Kafka集群接收来自所述接口协议层的DPI数据,并存放在对应Topics的具体分区中;

三、Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据,且对应的处理单元Topology对这些数据进行相应的预处理,并将预处理后的结果数据输出到所述Kafka集群对应的Topics中;

四、Spark Streaming集群间隔设定时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据,对所述预处理后的DPI数据进行复制和分发,并将最终的处理结果以〈key,value〉的形式存入KV数据库集群的数据库中;

在步骤一中,对所述DPI数据进行清洗过滤包括如下步骤:

过滤清洗所述DPI数据中的HTTP POST流量,只保留HTTP GET流量;

过滤清洗HTTP GET流量中非用户点击行为的流量;

在源数据中仅保留与业务相关联的字段,并清洗其他剩余的字段,且对保留的字段的进行重新排列;

对关键字段IMEI进行MD5不可逆加密,保障数据的隐私安全;

在步骤三中,所述预处理步骤包括:清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录;

在步骤四之后还包括步骤五,在所述步骤五中,业务平台系统通过所述KV数据库集群获取权限范围内的数据,并根据注册时使用的用户名与密码,以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。

2.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法,其特征在于:所述步骤二中,将经过步骤一过滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中,即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。

3.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法,其特征在于:从步骤一到步骤五的整个处理流程所产生的时延在秒数量级。

4.一种根据权利要求1-3任一所述的基于海量实时互联网DPI数据的流式处理方法的系统,其特征在于:包括:接口协议层、Kafka集群、Storm集群、Spark Streaming集群、KV集群;

所述接口协议层,用于接收海量实时互联网,并对所述DPI数据进行清洗过滤;

所述Kafka集群,用于接收来自所述接口协议层的DPI数据,并存放在对应Topics的具体分区中;

所述Storm集群,用于间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据,且对应的处理单元Topology对这些数据进行相应的预处理,并将预处理后的结果数据输出到所述Kafka集群对应的Topics中;

所述Spark Streaming集群,间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据,对所述预处理后的DPI数据进行复制和分发,并将最终的处理结果以〈key,value〉的形式存入所述KV数据库集群的数据库中;

在所述KV数据库集群中,业务平台系统通过所述KV数据库集群获取权限范围内的数据,并根据注册时使用的用户名与密码,以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司,未经江苏号百信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611258319.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top