[发明专利]一种Web日志数据的预处理方法无效

申请号：	201110200615.5	申请日：	2011-07-18
公开（公告）号：	CN102393849A	公开（公告）日：	2012-03-28
发明（设计）人：	孙健;隆克平;李志;谢发川;黄悦	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明针对Web日志挖掘系统，提出了一种Web日志数据的预处理方法，首先采用缺省的规则库对无用信息，即不需要的记录进行删除，并通过对规则库的修正来完成Web日志数据清理；然后利用启发式规则来解决代理和防火墙带来的用户识别难题，并结合对首页和导航页的综合考虑来完成对用户的会话识别；最后，用基于网站页面参引关系对访问路径进行补充，得到最终的各用户访问Web页面的页面访问序列，完成Web日志数据的预处理。与传统的以简单时间阀值会话识别相比，本发明明显提高对用户访问行为挖掘的精确度和可信度。
搜索关键词：	一种 web 日志数据预处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种Web日志数据的预处理方法，其特征在于，包括以下步骤：(1)、建立一个缺省的规则库来帮助删除Web日志数据不需要的记录；缺省的规则库对网站类型进行简单分类，不同类型的站点对应不同的规则；(2)、确定需要进行Web日志挖掘的网站属于哪一类，然后按照网站类型在缺省规则库中找到对应的规则，对Web日志数据进行相应的清理，如果遇到缺省规则库中没有的网站类型，返回第(1)步进行新类型规则添加；(3)、利用IP地址、操作系统、浏览器组建一个启发式规则来进行用户识别，将Web日志数据的各条访问记录按照不同的用户进行分组，得到各个用户的页面访问序列；(4)、对每个用户的页面访问序列以网站的首页作为新会话开始的标记，结合用户直接通过各导航页访问感兴趣页面的情况来进行用户的会话识别，得到用户一次或多次会话的页面访问序列；(5)、用基于网站页面参引关系对用户一次会话的页面访问序列进行访问路径补充，得到最终的各用户访问Web页面的一次或多次会话的页面访问序列，完成Web日志数据的预处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110200615.5/，转载请声明来源钻瓜专利网。

上一篇：一种户外广告牌
下一篇：一种用于数控系统电机主轴转速的控制系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Web日志数据的预处理方法无效

专利文献下载