[发明专利]基于海量实时互联网DPI数据的流式处理方法及系统有效

申请号：	201611258319.X	申请日：	2016-12-30
公开（公告）号：	CN107294801B	公开（公告）日：	2020-03-31
发明（设计）人：	黄凯翔;周蓉;张国华;许睿	申请（专利权）人：	江苏号百信息服务有限公司
主分类号：	H04L12/26	分类号：	H04L12/26;H04L29/08
代理公司：	南京钟山专利代理有限公司 32252	代理人：	戴朝荣
地址：	210006 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于海量实时互联网 dpi 数据处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于海量实时互联网DPI数据的流式处理方法，其特征在于:包括如下步骤：

一、接口协议层接收海量实时互联网DPI数据，并对所述DPI数据进行采集清洗过滤；

二、Kafka集群接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中；

三、Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；

四、Spark Streaming集群间隔设定时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以〈key,value〉的形式存入KV数据库集群的数据库中；

在步骤一中，对所述DPI数据进行清洗过滤包括如下步骤：

过滤清洗所述DPI数据中的HTTP POST流量，只保留HTTP GET流量；

过滤清洗HTTP GET流量中非用户点击行为的流量；

在源数据中仅保留与业务相关联的字段，并清洗其他剩余的字段，且对保留的字段的进行重新排列；

对关键字段IMEI进行MD5不可逆加密，保障数据的隐私安全；

在步骤三中，所述预处理步骤包括：清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录；

在步骤四之后还包括步骤五，在所述步骤五中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。

2.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法，其特征在于：所述步骤二中，将经过步骤一过滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中，即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。

3.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法，其特征在于:从步骤一到步骤五的整个处理流程所产生的时延在秒数量级。

4.一种根据权利要求1-3任一所述的基于海量实时互联网DPI数据的流式处理方法的系统，其特征在于：包括：接口协议层、Kafka集群、Storm集群、Spark Streaming集群、KV集群；

所述接口协议层，用于接收海量实时互联网，并对所述DPI数据进行清洗过滤；

所述Kafka集群，用于接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中；

所述Storm集群，用于间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；

所述Spark Streaming集群，间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以〈key,value〉的形式存入所述KV数据库集群的数据库中；

在所述KV数据库集群中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司，未经江苏号百信息服务有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611258319.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载