[发明专利]一种大数据日志归一化方法及工具在审
申请号: | 201810790318.2 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109033319A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 孙俊虎 | 申请(专利权)人: | 长扬科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 郝学江 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志数据 归一化 大数据 日志 缓存 获取源 预设 标注 数据格式统一 归一化单元 预处理单元 预处理阶段 采集单元 定义处理 定义模板 格式统一 含义数据 数据字段 性能提升 整合单元 保存 转换 整合 字段 过滤 采集 维护 分割 分类 挖掘 统一 | ||
本发明提供了一种大数据日志归一化方法,包括:采集阶段获取源日志数据信息并缓存;预处理阶段定义模板;归一化阶段,将源日志数据进行分割过滤,然后按照预设的标注模板进行转换,生成统一归一化日志数据;整合阶段,对归一化的日志数据进行保存维护。一种大数据日志归一化工具,包括:采集单元,获取源日志数据信息并缓存;预处理单元,定义处理模板,将所述源日志数据进行处理,生成有特定含义数据字段;归一化单元,对所述有特定含义的数据字段按照预设标注模板重新分类转换,生成格式统一的归一化日志数据;整合单元,对归一化的日志数据进行保存和维护。本发明提供的方案可以将多样化数据格式统一化,使得数据的挖掘效率更高,性能提升。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据日志归一化方法及工具。
背景技术
大数据(Big Data)一词越来越多地被人们提及与使用,人们用它来描述和定义信息爆炸时代产生的海量数据,我们不得不接受这个现实,每个人从互联网进入到大数据时代,都将是透明性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
大数据具有四大特点:海量性,多样性,高速性,易变性,总结起来他有三方面的特征:第一个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求;第二个特征是数据价值密度相对较低,如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题;第三个特征是处理速度快、时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。
我们要想从急剧增长的数据资源中充分挖掘并分析出有价值的信息,就需要以先进的分析技术作为支撑。从宏观上来看,大数据分析技术的发展所面临的问题均包含以下三个主要特征:
(1)数据结构与种类多样化,并以非结构化和半结构化的数据为主;
(2)数据量庞大并且正以惊人的速度持续增长;
(3)必须具备及时、快速的分析速度,即实时分析;
以上(2)、(3)方面目前商业和开源产品都有很好的解决方案,而我们提供第(1)方面解决方案,那就是数据的归一化。
大数据分析早已不是新鲜的名称,但是对于数据结构与种类多样化的特点,分析方法品类繁多,传统的做法就是具体业务数据具体处理,很难有统一的挖掘方法且展示给客户也是多种多样的格式,该发明提供的数据归一化方法就是把繁多的数据归一到一个维度上来,使得数据的挖掘和展示统一。
发明内容
针对上述现有技术中的不足之处,本发明提供了一种大数据日志归一化方法及工具,以解决现有技术中数据格式繁杂处理效率低的问题。
本发明提供了一种大数据日志归一化方法,包括:采集阶段,获取源日志数据信息,并进行缓存;预处理阶段,根据采集源日志数据设置归一化标准模板、增强模板;归一化阶段,将所述源日志数据进行分割、过滤,然后按照预设的标注模板进行转换,生成格式统一的归一化日志数据;整合阶段,对所述归一化的日志数据进行保存和维护。
作为本发明的进一步改进,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对日志数据进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板是在标准模板的基础上增加个性化的特征项属性。任何系统、设备产生的数据都可以从这七个方面进行标注解析,从而便于实现多样化的数据的归一。
作为本发明的进一步改进,所述归一化阶段具体包括如下步骤:将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段,对所述有特定含义的数据字段进行分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长扬科技(北京)有限公司,未经长扬科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810790318.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能问答方法及装置
- 下一篇:一种双语新闻聚合方法及系统