[发明专利]基于海量实时互联网DPI数据的流式处理方法及系统有效

专利信息
申请号: 201611258319.X 申请日: 2016-12-30
公开(公告)号: CN107294801B 公开(公告)日: 2020-03-31
发明(设计)人: 黄凯翔;周蓉;张国华;许睿 申请(专利权)人: 江苏号百信息服务有限公司
主分类号: H04L12/26 分类号: H04L12/26;H04L29/08
代理公司: 南京钟山专利代理有限公司 32252 代理人: 戴朝荣
地址: 210006 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 海量 实时 互联网 dpi 数据 处理 方法 系统
【说明书】:

发明提供了一种基于海量实时互联网DPI数据的流式处理方法,并包括如下步骤:接口协议层接收海量实时互联网DPI数据,并对所述DPI数据进行采集清洗过滤;Kafka集群接收来自所述接口协议层的DPI数据,并存放在对应Topics的具体分区中;Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据,且对应的处理单元Topology对这些数据进行相应的预处理,并将预处理后的结果数据输出到所述Kafka集群对应的Topics中;Spark Streaming集群间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据,对所述预处理后的DPI数据进行复制和分发,并将最终的处理结果以<key,value>的形式存入KV数据库集群的数据库中。本发明还提供一种基于海量实时互联网DPI数据的流式处理方法的系统。

技术领域

本发明属于大数据处理技术领域,具体地涉及一种基于海量实时互联网DPI数据的流式处理方法及系统。

背景技术

近年来,互联网发展速度飞速增长,其上的数据也在不断增长,尤其随着移动互联网的崛起,多元化的数据使得我们对各类数据的分析挖掘需求更为迫切。如何从这些海量的数据中深入挖掘并创造更大更有用的价值,是大数据行业一直以来的目标。

目前,主流的大数据处理方法都是基于Hadoop进行的,Hadoop的出现使得人们分析海量数据更为简单容易,其上的MapReduce编程模型可以并行的在各个节点上运行处理,而且Hadoop具备良好的可扩展性,节点可以动态的加入而不影响集群的正常运行。然而Hadoop同样存在着一些不足,它只能支持离线的数据处理,只有当数据写入到Hadoop的本地存储中,才可以进一步的进行计算分析,存在较大的时延,不适合处理实时海量数据,无法满足和响应对数据处理时延较为敏感的一些需求和业务,所以需要构建一种可以处理实时数据的流式处理方法来满足实时业务需求。

Kafka是分布式发布与订阅消息系统。它是一个分布式的,可划分的,冗余备份的,持久性的日志服务,主要用于处理活跃的流式数据。在大数据系统中,数据通常需要在其下的各个子系统中高效低时延的运转。为了能很好的统筹这些数据的分发,满足实时应用和离线应用,Kafka的出现正好解决了这一问题,其作为一条高速的数据总线,统筹数据的分发,降低了系统组网、编程的复杂度。

Storm是一个分布式、高容错的实时计算系统。Storm对于实时计算的意义相当于Hadoop对于批处理的意义。其提供了类似于Hadoop中Map与Reduce的计算框架Spout与Bolt。Storm非常适用于流数据的处理,可以用来处理源源不断的数据流,并且也可以将处理的结果保存到持久化介质中。

Spark Streaming是建立在Spark上的实时计算框架,用户可以通过调用其丰富的API接口进行基于内存的高速流式批处理。Spark Streaming使用基于内存的Spark作为执行引擎,具有高效性和容错性,并可以部署在100个以上的节点上,同时能达到秒级的延迟。它还为实现复杂的算法提供简单的API调用接口,方便用户的编程使用。

KV(Key-Value)数据库集群是一个具有高并发实时查询能力的非关系型数据库。该集群主要基于Nginx+Netty的框架,其中Nginx提供高并发的对外服务,Netty提供高性能和高可用性的网络应用框架,提升查询效率。集群采用基于Token(令牌)的用户身份验证机制,使用户在访问受保护的服务资源时仅需提供Token,而不需要提供用户名和密码。Token是包含用户名、有效期和某些专有信息并通过共享密钥加密的信息字符串。KV集群提供了安全高速低时延的结果数据接口。

将这几类大数据领域的实时处理组件进行设计、配置与组合,构建一种可以满足处理各类海量实时互联网DPI数据的方法和系统,可以最大程度的提高大数据挖掘的能力,创造更多更大的价值,从而更好的支撑上层大数据业务的发展。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏号百信息服务有限公司,未经江苏号百信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611258319.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top