[发明专利]一种日志信息的处理方法及系统有效

专利信息
申请号: 201110095242.X 申请日: 2011-04-15
公开(公告)号: CN102737063A 公开(公告)日: 2012-10-17
发明(设计)人: 刘维佳 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F11/34
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 日志 信息 处理 方法 系统
【说明书】:

技术领域

本申请涉及计算机技术领域,尤其涉及一种日志信息的处理方法及系统。

背景技术

随着计算机网络技术的发展,越来越多的网络用户通过登录各类型的网站服务器得到相应的网络服务器,网站服务器经过一段时间(如24小时)的运行后,会生成大量的日志信息,如某些电子商务网站服务器每天生成的日志信息数以亿条,包含这些日志信息的数据文件的大小达到数百GB。

由于每隔一段时间(如24小时),网络服务器就会产生大批量的日志信息,而这些日志信息可能是反映网络以及业务运行状态的有用日志信息,也可能是网络冗余信息产生的无用日志信息,如垃圾消息产生的日志信息,因此,需要对日志信息进行分析,查看一段时间内产生的日志信息是否有用日志信息。如果绝大部分日志信息是有用日志信息,则可以存储这些有用的日志信息,用于今后对网络以及业务运行状态进行分析;如果大部分日志信息是无用日志信息,则不需要存储无用日志信息,以免浪费存储资源。

为了方便日志信息的存储和数据分析,可以利用模型算法将网络服务器设定格式的日志信息转换为数值表示。具体的转换方式为:

首先,预先设定若干个关键词,同一关键词的内容可以不同。

例如:预设的关键词为卖家信誉、产品销量、产品类目等反映商品交易的关键词,也可以是其他与网站服务器的运营有关的关键字。以卖家信誉这一关键词为例,该关键词的内容可以是“高”、“较高”、“中”、“较低”和“低”这5种内容。

然后,为每个关键词建立对应的模型算法,针对同一关键词的不同内容,根据该关键词对应的模型算法,可以为各内容进行打分,得到不同内容的数值。

仍以卖家信誉这一关键词为例,若该关键词的内容分别为“高”和“中”,则将“高”和“中”分别通过卖家信誉对应的模型算法进行运算,为卖家信誉“高”和卖家信誉“中”这两种情况进行打分,若假定数值越高表示的卖家信誉越好,则卖家信誉“高”的打分数值高于卖家信誉“中”的打分数值,该打分数值即为该关键词的数值。

若一条日志信息中包含有多个关键词,则针对每个关键词都可以按照上述方式打分后得到该关键词的数值,进而将同一日志信息中的多个关键词的数值进行运算,如加权运算、相加、相乘或其他运算方式,最终得到日志信息转换后的数值。

在将日志信息转换为数值表示的形式后,需要对每次产生的大量的日志信息的有效性进行判定,具体的有效性判定方式包括但不限于以下两种方式:

第一种判定方式:

将第一时间段内产生的日志信息的数据条数和包含这些日志信息的数据文件的大小分别与第二时间段内产生的日志信息的数据条数和包含日志信息的数据文件的大小进行比较,若两个时间段内产生的数据条数和数据文件的大小比较接近,则认为第一时间段内的日志信息为有效,否则,认为第一时间段内的日志信息为无效。

在第一种判定方式下,通过对数据条数和数据文件大小的简单判定来确定日志信息的有效性,用于判定的数据的粒度太粗,判定结果准确性低。

第二种判定方式:

针对日志信息的某些特征来分析日志信息,例如,在日志信息是由电子商务网站服务器生成时,在第一时间段和第二时间段内生成的日志信息中都包含特征为促销商品的日志信息,可以将第一时间段内促销商品的日志信息和第二时间段内促销商品的日志信息进行分析,若两个时间段内促销商品的日志信息的数值大小接近,则认为第一时间段内的日志信息为有效,否则,认为第一时间段内的日志信息为无效。

在第二种判定方式下,针对不同类型的网络服务器产生的日志信息要分别采用不同的算法进行分析,没有统一有效的算法;且具有某些特征的日志信息也只是第一时间段内产生的大量日志信息中非常少的一部分,其判定结果同样可能存在的误差。并且需要分析日志信息中的特征信息,计算过程复杂。

综上所述,目前对海量的日志信息进行有效性判定时,还存在判定结果误差较大,难以准确地对一段时间内产生的日志信息进行有效性判定的问题。

发明内容

本申请实施例的目的在于:提供一种日志信息的处理方法及系统,用以解决现有技术中存在对海量的日志信息进行有效性判定时,判定结果的误差较大的问题。

一种日志信息的处理系统,包括分析服务器和至少一台运算服务器,其中:

采样模块,用于分别对参考时间段和待处理时间段内产生的日志信息按照设定采样比例进行采样,得到参考时间段和待处理时间段的采样日志信息,所述参考时间段是待处理时间段之前的时间段;

运算模块,用于对得到的参考时间段的采样日志信息和待处理时间段的采样日志信息进行运算;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110095242.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top