[发明专利]一种改进日志处理系统架构的方法在审
申请号: | 202010267270.4 | 申请日: | 2020-04-08 |
公开(公告)号: | CN111597157A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 何熊熊;李欢 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06F16/16 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 日志 处理 系统 架构 方法 | ||
一种改进日志处理系统架构的方法,架构从下往上依次为数据集成层、文件存储层、统计分析层和数据可视化模块。基于Kafka提供的Connector接口实现了一个HDFSConnector可以做到将收集到的日志消息实时地存储到HDFS分布式文件系统中,为后续的离线统计、分析、挖掘、预测提供数据支持,同时提出了一种新的日志处理架构,它与传统的架构不同,它可以同时支持离线计算和实时计算,并且它更具有拓展性,也具有较高的吞吐量,此外还简化了系统组件中的数量,可维护性也更好。
技术领域
本发明涉及网络技术领域,具体涉及一种改进日志处理系统架构的方法。
背景技术
随着科技的发展,我们的生活也越来越信息化,大数据已与我们的工作生活密不可分,它的存在给商业、医疗、航空、农业等其他领域的发展起到了积极的作用。从商业价值上看,大数据技术在统计分析用户行为,挖掘潜在商业价值上已有非常广泛的应用。而要做后续的统计分析工作则需要将数据传送到统计分析的平台中。数据源,在用户行为分析中主要是指移动端日志和web日志。如今收集日志的方式多种多样,数据源已经存在了。那么,将收集到的日志接入到统计分析平台,并且保证数据接入系统的稳定性、高效性都是至关重要的,因为这些都将直接影响着后续数据分析、挖掘的质量。
在Hadoop生态系统传统的计算模型中,日志的收集工作主要是由Flume开源系统完成。首先是通过在主机.上部署Agent,由Agent来负责按照一定的收集频率将源源不断产生的日志消息传输到Channel,最后再由Flume提供的Sink完成数据到下一个系统的需求。这里的Sink组件,若要是想对数据进行离线分析则可以使用HDFS Sink完成存储到HDFS分布式文件系统的功能,然后经由后面的Hive的分析将数据进行统计分析。若是需要对数据进行实时计算则会存在一个Flume收集到的数据无法按时按需的传送到实时计算框架中的问题,因此这种框架为了想要支持实时计算必须解决这个问题。现如今比较主流的处理方式是接入一个Kafka,通过Kafka这种消息中间件负责做一个缓冲可以将Flume收集到的信息做一个实时消费,接入到实时计算框架。
发明内容
为了克服传统日志架构组件复杂并且效率缓慢的问题,本发明利用Spark平台提供的Spark Streaming组件;将指定的时间片段将流数据积累为RDD,继而对每个RDD进行微批次式处理,经过这种处理方式来处理大规模的流式数据,与Kafka集群以及HDFS结合,实现对产生的日志数据进行处理,从其中比较改进的日志处理系统结构与业界流行的日志处理系统架构得出改进的日志处理系统架构具有更好的简单性,更加灵活的处理方式,并且比传统的方式更节省系统资源。
本发明解决其技术问题所采用的技术方案是:
一种改进日志处理系统架构的方法,架构从下往上依次为数据集成层、文件存储层、统计分析层和数据可视化模块,所述数据集成层是用来将数据源导入文件存储层,或是将数据源导入计算模型,这里的数据源是用户对Nginx服务器一次请求的记录;所述文件存储层是将数据源持久化到分布式文件系统供离线分析使用,这里的文件分布式系统采用HDFS;所述计算模型层主要分成两个部分,其中第一部分用来将存储到分布式文件系统中的数据信息导入到分布式计算模型Spark中进行离线分析,这里的离线批处理模型采用Spark on Yarn;另一部分用来将来源自数据集成层的信息导入实时计算模型进行实时计算,选择Spark作为离线分析的计算模型,选用Spark Streaming进行实时分析只需要维护并监控Spark集群。
进一步,首先当一个请求打向nginx后,使用lua脚本完成日志整理:例如统一处理的日志格式,去除无效的请求等;然后根据不同的nginx日志,划分不同的topic;进一步使用lua脚本实现producer异步发送到kafka集群,再进一步根据业务逻辑的需要分业务的对日志数据进行消费。
本发明的有益效果主要表现在:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010267270.4/2.html,转载请声明来源钻瓜专利网。