[发明专利]一种用户访问路径预测方法在审
申请号: | 201711422976.8 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108153870A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 刘明鸣;胡涛 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户访问路径 预测 访问路径 序列集 页面 计算机软件 结构调整 频繁路径 日志文件 网站拓扑 用户访问 算法 挖掘 改进 访问 | ||
1.一种用户访问路径预测方法,其特征在于,包括以下步骤:
A、从站点服务器获取日志数据进行数据预处理,构造用户访问序列集;
B、对于用户访问序列集,删除每个序列中的非频繁项,得到频繁访问序列集;
C、根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中;所述改进编码模式包括:以先序遍历方式遍历整个树,对每个访问到的节点从0开始编号;如果某节点为叶子节点,则其desPreOrderID等于该节点的preOrderID;如果某节点有子孙节点,则该节点的desPreOrderID取左孩子节点与右孩子节点desPreOrderID中的最大值;其中,preOrderID为先序遍历序号,desPreOrderID为子孙节点的先序遍历序号;
D、在改进的PLWAP-树上使用挖掘算法进行频繁路径递归挖掘,得到用户访问模式集合;
E、对步骤D中得到的用户访问模式集合进行模式分析,从而对用户访问路径进行预测。
2.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤A对日志数据进行预处理,具体包括以下分步骤:
A1、对日志文件进行数据清洗,去除无效数据和非用户主动访问的项目;
A2、根据日志数据和站点拓扑结构将用户及请求访问网页进行关联,并对用户进行识别;
A3、将用户的原始访问序列划分为若干个单次访问序列;
A4、若用户请求访问页面和对应页面请求无链接关系,则利用站点拓扑结构将请求页面补充完整。
3.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤C根据频繁访问序列集以及改进编码模式将数据压缩在改进的PLWAP-树中具体包括:
依次取出频繁序列集的一条序列L1,对于L1中一个频繁项ei,1)如果ei不存在,从根节点起,先序遍历该树,由1开始依次递增对每个节点的preOrderID进行编码,并置desPreOrderID=0,同时将同形结点加入头结点链中,然后再从根节点开始,后序遍历树,根据节点的desPreOrderID定义,设置每个节点的desPreOrderID;2)如果ei存在,并且当前节点有子节点,ei属于当前节点子节点的其中一个,则子节点计数值加1;3)如果ei存在,并且当前节点有子节点,但ei不属于当前节点子节点的其中一个,则将ei作为新的节点(ei:1)插入至树中,支持度计数为1;4)如果当前节点没有子节点则也将ei作为新的节点(ei:1)插入至树中,支持度计数为1。
4.如权利要求1所述的一种用户访问路径预测方法,其特征在于,步骤D一次递归挖掘的步骤具体包括:
判断频繁项ei后缀树集R是否为空,1)如果后缀树集R为空,则算法结束;2)如果不为空,对于每个频繁项ei,获取ei后缀树集R,获取ei的第一结点S,并将S插入后缀树集R’,后缀树集R’用于下次递归;3)对于ei-结点链的每个同形结点eij和后缀树集R的每个节点Ri,判断他们的关系:3.1)如果Ri是eij的祖先节点且eij不是S的子孙节点,累加计算eij计数值C,并将eij插入后缀树集R’,第一节点改成eij;3.2)如果Ri是eij的左兄弟节点,则继续读取下一个后缀树集R中节点;3.3)如果Ri是eij的右兄弟节点或是子孙节点,则继续读取ei-结点链的下一个节点;4)当后缀树集R中再无节点时,且当前计数值C大于最小支持度,则将该频繁项添加入频繁集F’集中,并将同形节点加入且后缀数集R’中;5)将本次获取的后缀数集R’和频繁集F’作为下次挖掘的条件继续挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711422976.8/1.html,转载请声明来源钻瓜专利网。