[发明专利]一种用户访问路径预测方法在审

专利信息
申请号: 201711422976.8 申请日: 2017-12-25
公开(公告)号: CN108153870A 公开(公告)日: 2018-06-12
发明(设计)人: 刘明鸣;胡涛 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都虹桥专利事务所(普通合伙) 51124 代理人: 吴中伟
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户访问路径 预测 访问路径 序列集 页面 计算机软件 结构调整 频繁路径 日志文件 网站拓扑 用户访问 算法 挖掘 改进 访问
【说明书】:

发明涉及计算机软件领域,公开了一种用户访问路径预测方法,用于更好的预测用户的访问路径。本发明首先从日志文件构造出用户访问序列集,然后在该序列集上,使用改进的PLWAP算法做频繁路径挖掘得到频繁访问路径,从而预测用户下一步访问的页面,为页面推荐、网站拓扑结构调整提供建议。本发明适用于用户访问路径预测。

技术领域

本发明涉及计算机软件领域,特别涉及一种用户访问路径预测方法。

背景技术

用户在网站时所产生的页面点击序列称为用户访问路径。对每位用户的访问路径进行频繁模式挖掘,从而达到预测用户行为。对网站结构优化、网页推荐WEB挖掘是对服务器产生的日志数据进行数据挖掘,挖掘出有用模式。

基于频繁路径挖掘的PLWAP算法将数据压缩在一棵树中,但是使用二进制对树中节点的位置进行编码,存在数据量过大时,二进制位置编码的长度将变得无法想象的长,以及编码的个数也将呈现2的指数级趋势升高的缺陷。

发明内容

本发明要解决的技术问题是:提供一种用户访问路径预测方法,用于更好的预测用户的访问路径。

为解决上述问题,本发明采用的技术方案是:一种用户访问路径预测方法,包括以下步骤:

A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;

B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;

C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;

D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;

E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。

进一步的,步骤A对日志数据进行预处理,具体包括以下分步骤:

A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;

A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;

A3、将用户的原始访问序列划分为若干个单次访问序列;

A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。

进一步的,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:

依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。

进一步的,步骤D一次递归挖掘的步骤具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711422976.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top