[发明专利]一种融合用户行为及Web页面依赖关系的数据挖掘方法有效
申请号: | 202010262268.8 | 申请日: | 2020-04-06 |
公开(公告)号: | CN111460004B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 杨波;卫新洁;吴际 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 李有浩 |
地址: | 100043 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 用户 行为 web 页面 依赖 关系 数据 挖掘 方法 | ||
1.一种融合用户行为及Web页面依赖关系的数据挖掘方法,其特征在于包括有下列步骤:
步骤一,从Web应用的访问日志中获取多个用户的用户会话数据,然后执行步骤二;
在访问时间里,收集页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中每个页面被用户US={user1,user2,…,userx,…,usery,…,userX}访问的访问日志,构成了用户-会话数据集合,记为MUS,且
所述用户集US={user1,user2,…,userx,…,usery,…,userX}中;
user1表示第一个用户;
user2表示第二个用户;
userx表示任意用户,下角标x表示用户标识号,x∈X;usery表示另一任意用户,y∈X;且userx与usery表示用户集US中的不同用户;
userX表示最后一个用户,下角标X表示总用户数;
所述页面集MP={page1,page2,…,pagea,…,pageb,…,pageA}中;
page1表示Web应用中的第一个页面;
page2表示Web应用中的第二个页面;
pagea表示Web应用中的任意页面;下角标a为页面标识号,a∈A;pageb表示Web应用中的另一任意页面,b∈A;且pagea与pageb表示Web应用页面集MP中的不同页面;
pageA表示Web应用中的最后一个页面;下角标A为总页面数。
page1_US表示多个用户访问第一页面page1形成的用户会话数据;
page2_US表示多个用户访问第二页面page2形成的用户会话数据;
pagea_US表示多个用户访问任意页面pagea形成的用户会话数据;
pageb_US表示多个用户访问另一任意页面pageb形成的用户会话数据;
pageA_US表示多个用户访问最后一页面pageA形成的用户会话数据;
步骤二,采用删除后缀对每个用户的用户会话数据进行预处理,得到后缀去除后的用户行为数据,然后执行步骤三;
对所述用户-会话数据集合进行去除后缀处理,得到去除后缀处理后的用户行为数据,则构成了用户-行为数据集合,记为FUS,且
表示page1_US被去除后缀后的用户行为数据;
表示page2_US被去除后缀后的用户行为数据;
表示pagea_US被去除后缀后的用户行为数据;
表示pageb_US被去除后缀后的用户行为数据;
表示pageA_US被去除后缀后的用户行为数据;
在本发明中,后缀是指包含有gif、jpg、jpeg、GIF、JPG或者JPEG的页面文件;
步骤三,采用先后执行顺序关系CR抽取出用户行为数据中页面之间的排序位置关系;然后执行步骤五;
步骤301,构建一个空的先后执行顺序关系集CRR;
步骤302,比较用户-行为数据集合中任意用户的任意用户行为数据与另一任意用户的另一任意用户行为数据是否存在页面先后执行顺序;
若存在有页面先后执行顺序,记为则将所述添加到先后执行顺序关系集CRR中,则加入所述CRR记录的元素表示为
若为同一用户访问的不同页面,因为是一个用户访问Web页面,定义为不存在页面先后执行顺序,不记录到先后执行顺序关系集CRR中;
若为不同用户访问的同一页面,因为同一页面不作页面先后执行顺序比较,不记录到先后执行顺序关系集CRR中;
步骤303,重复执行步骤302使和两两比较遍历完成页面之间的先后执行顺序,并将页面之间的先后执行顺序添加到先后执行顺序关系集CRR中;
步骤四,采用数据互用关系DR抽取出用户行为数据中页面之间的共用访问信息依赖关系,然后执行步骤五;
步骤401,构建一个空的访问信息互用关系集DRR;
访问信息互用关系集DRR用于记录访问时间里、用户使用相同访问信息浏览不同页面产生的日志;
步骤402,比较用户-行为数据集合中任意用户的任意用户行为数据与另一任意用户的另一任意用户行为数据是否存在相同访问信息;
若存在有相同访问信息,记为则将所述添加到访问信息互用关系集DRR中,则加入所述DRR记录的元素表示为
若访问的不同页面不存在访问信息互用,定义为不存在互用访问信息,不记录到访问信息互用关系集DRR中;
步骤403,重复执行步骤402使和遍历完成页面之间的互用访问信息,并将页面之间的访问信息互用添加到访问信息互用关系集DRR中;
步骤五,用户行为数据最小集的获取;
步骤501,接收步骤三输出的先后执行顺序关系集CRR,所述CRR记录的元素表示为执行步骤503;
步骤502,接收步骤四输出的访问信息互用关系集DRR,所述DRR记录的元素表示为执行步骤503;
步骤503,从先后执行顺序关系集CRR和访问信息互用关系集DRR中选取出同时存在有页面执行顺序和访问信息互用的页面,并生成测试用例集UU;所述测试用例集UU记录的元素表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010262268.8/1.html,转载请声明来源钻瓜专利网。