[发明专利]一种大数据日志归一化方法及工具在审
申请号: | 201810790318.2 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109033319A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 孙俊虎 | 申请(专利权)人: | 长扬科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 郝学江 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志数据 归一化 大数据 日志 缓存 获取源 预设 标注 数据格式统一 归一化单元 预处理单元 预处理阶段 采集单元 定义处理 定义模板 格式统一 含义数据 数据字段 性能提升 整合单元 保存 转换 整合 字段 过滤 采集 维护 分割 分类 挖掘 统一 | ||
1.一种大数据日志归一化方法,其特征在于,包括:采集阶段,获取源日志数据信息,并进行缓存;预处理阶段,根据采集源日志数据设置归一化标准模板、增强模板;归一化阶段,将所述源日志数据进行分割、过滤,然后按照预设的标注模板进行转换,生成格式统一的归一化日志数据;整合阶段,对所述归一化的日志数据进行保存和维护。
2.根据权利要求1所述的大数据日志归一化方法,其特征在于,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对日志数据进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板是在标准模板的基础上增加个性化的特征项属性。
3.根据权利要求2所述的大数据日志归一化方法,其特征在于,所述归一化阶段具体包括如下步骤:将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段,对所述有特定含义的数据字段进行分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中。
4.根据权利要求3所述的大数据日志归一化方法,其特征在于,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,包括对数据字段的匹配、解析、组合的数据处理方式。
5.根据权利要求1所述的大数据日志归一化方法,其特征在于,将所述源日志数据进行分割、过滤之前,还包括如下步骤:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重、关联、增强,只保留一份该数据。
6.一种大数据日志归一化工具,其特征在于,包括:
采集单元,用于获取源日志数据信息,并进行缓存;
预处理单元,定义处理模板,包括标准模板、增强模板,用于将所述源日志数据进行去重、分割、关联、增强和过滤,生成有特定含义的数据字段;
归一化单元,用于对所述有特定含义的数据字段按照预设的标注模板重新分类转换,所述有特定含义的数据字段填充至预设的标注模板相应含义的数据字段中,生成格式统一的归一化日志数据;
整合单元,用于对所述归一化的日志数据进行保存和维护。
7.根据权利要求6所述的大数据日志归一化工具,其特征在于,所述预设的标注模板分为标准模板和增强模板两种,标准模板按以下七个方面对数据字段进行分类转换:原因、对象、地点、时间、人员、方法、结果;增强模板除了做标准模板的分类转换后,对个性化的数据做数据关联以及数据增强。
8.根据权利要求6所述的大数据日志归一化工具,其特征在于,所述将所述源日志数据进行去重、分割和过滤具体包括如下:将获取的所述源日志数据进行筛选,将相同的所述源日志数据去重,将源日志数据分割成独立的数据字段,过滤出有特定含义的数据字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长扬科技(北京)有限公司,未经长扬科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810790318.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能问答方法及装置
- 下一篇:一种双语新闻聚合方法及系统