[发明专利]日志萃取方法及装置有效

申请号：	201010253680.X	申请日：	2010-08-11
公开（公告）号：	CN101950293A	公开（公告）日：	2011-01-19
发明（设计）人：	黎兰迁	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/46
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	陈英俊
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	日志萃取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络信息处理领域，更为具体地，涉及一种用于从海量的日志中萃取日志全集的日志萃取方法及装置。

背景技术

随着网络技术的日益发展，通过网络来传递信息正在成为一种趋势。然而，由于网络黑客经常利用木马程序非法侵入私人网络空间来窃取私人信息，因此，如何保证网络上的信息安全越来越受到重视。对于网络信息安全技术方案而言，对信息的分析和提取非常重要。

安全运维系统提供了一种系统的处理安全信息的解决方案，其核心功能之一就是处理网络中爆发的安全信息，并根据策略生成报警信息。具体地，首先，安全运维系统监听网络中的各种信息(这些信息反应了网络设备在运行过程中的各种信息)。在接收到这些信息之后，安全运维系统经过分析，提取有效信息，根据这些信息关联各种安全策略最终生成报警信息，并向网络管理员提示网络的运行状态。

安全运维中心要处理这些信息，就必须能够有效地识别并提取信息中的有价值信息，而这些工作都是在分析既有信息的基础上进行的。在这种情况下，安全运维系统的信息分析师需要从各种安全信息中提取出有用信息，提供给产品开发人员，以便进一步增强安全运维系统对信息的提取、分析和处理能力。

安全信息是指网络设备在运行过程中，按照某种机制，定时或条件触发地发出的信息，比如常用的Syslog，SNMP Trap信息等，在此将这些信息统一称为日志。

在分析和提取安全信息时，安全运维系统首先需要能够识别日志，即需要具有日志的格式信息，这样系统就能够根据日志的具体格式来进行具体的解析，提取出系统所能处理的各种信息字段。其次，安全运维系统需要能够根据信息表达的告警信息生成告警事件，这需要预先知道日志所表达的信息，即日志定义，系统根据提取的字段及其相对应的日志定义，再根据制定的安全策略，从而生成相应的告警信息，达到安全运维目标。从上可以看出，在分析和提取安全信息时，安全运维系统需要知道完整的日志信息。

完整的日志信息通常需要由网络设备制造商提供，包括日志的格式，以及整个的日志全集及其所表达的含义等。但在实际的运维现场，这些齐全的信息很难获取，而只能是通过在现场收集实际的现场日志信息，然后反馈到开发人员处，由信息分析师对日志进行分析并提取各种有用信息，然后制定解析策略，再由开发人员对日志做实际的处理。

通常情况下，现场收集到的日志样本将是海量的，因为它包含了系统运行过程中收集到的各种信息，包括网络的运行状态和实时业务信息等。但是这海量的日志里面有大量是重复的日志，如重复的状态信息通报，重复的业务信息通报等，这些信息都是正常的系统运行状态，与网络安全没有太多联系，而信息分析师则需要对所有这些收集到的信息进行分析，工作量巨大且严重受到这些重复日志的干扰。因此，需要一种技术来从海量日志中萃取出完整的日志样本，减轻信息分析师的工作量并提高工作质量。

日志萃取技术被开发来解决上述问题，其从海量的日志样本中萃取出格式各异的日志全集，从而为下一步的日志分析和处理提供原始日志样本。日志萃取的目的是从海量的日志中筛选出日志全集，并尽可能地过滤掉多余的重复日志。关于重复日志的概念在下面进行简单说明。

重复日志通常是完全一样的两条日志(字符串)。但实际上，由于日志中都包含有时间戳字段，这也就意味着不同时间发出的日志肯定不会完全一样。此外，日志中还可能包含有其他一些可变的字段，而这些字段值的变化对于信息提取是没有多大意义的。因此，在日志萃取技术方案中，需要扩大重复日志的包含范围。通常，将仅仅这些可变信息字段不同的日志也视为重复日志，换言之，重复日志是指表达同一种事件的日志。

通常假定重复日志在一定程度上是相同的，并且利用相似度来衡量。在现有判断重复日志的技术中，通过设定一个阀值来判断两条日志是否重复。比如设定阀值为80％，则当两条日志的相似度大于80％，就判定这两条日志是重复日志。目前已经存在多种字符串的相似度算法，比如俄罗斯科学家Vladimir Levenshtein提出的Levenshtein distance(编辑距离)算法。在该算法中，通过把字符串1变成字符串2需要的最小单字符操作(插入、删除和替换)的次数来计算两个字符串的相差程度。利用该算法，能够比较好地计算出字符串之间的相似度，其时间和空间复杂度为O(n^2)。

然而，对于海量的日志，如果两两比较，然后排除掉重复日志，这需要大量的计算并且非常耗时，从而在性能上是不可行的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司，未经东软集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010253680.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]日志萃取方法及装置有效

专利文献下载