[发明专利]基于Web用户时间属性的序列模式挖掘方法无效
申请号: | 201410004623.6 | 申请日: | 2014-01-06 |
公开(公告)号: | CN103744957A | 公开(公告)日: | 2014-04-23 |
发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;于汪洋;陈英华 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Web用户时间属性的序列模式挖掘方法。针对个体用户访问模式存在的时间偏好进行分析,挖掘用户时间特征上的个性,进而对用户个体进行建模,从而形成用户个性化的访问模式。为此提出UFAP-双亲索引森林,刻画用户访问序列模式。结合个人用户访问时间偏好——驻留时间、时间间隔,分别对用户访问的网页类内Web页面的驻留时间和网页类与类之间的时间间隔进行K-means聚类,最终构建出用户个性化的时间偏好访问模式。本发明实现细粒度、全方位的个性化推荐,使推荐不仅仅局限在站内,甚至可以形成站间的互动,对于电子商务网站生态圈的优化和实施个性化服务具有深远意义。 | ||
搜索关键词: | 基于 web 用户 时间 属性 序列 模式 挖掘 方法 | ||
【主权项】:
一种基于Web用户时间属性的序列模式挖掘方法,其特征在于,针对个体用户访问模式存在的时间偏好进行分析,挖掘用户时间特征上的个性,进而对用户个体进行建模,从而形成用户个性化的访问模式,具体包括步骤:步骤一,数据预处理;根据用户浏览日志,剔除冗余网页,进行网页分类处理,再根据用户访问时间戳对原始数据进行排序,生成所需会话集,最终得到所需格式日志;步骤二,构建Web用户访问树;根据预处理后的日志,统计频繁访问网页类,生成频繁会话集,创建一种辅助表的数据结构并在其中加以记录,再根据辅助表中记录的用户频繁会话模式,并在字典树的基础上提出Web用户访问树——UFAP‑双亲索引树;步骤三,生成Web用户频繁访问森林;根据辅助表中网页类间的置信度统计UFAP‑双亲索引树的强关联边,进一步调整UFAP‑双亲索引树,使其网页类间边的关系符合强关联;通过UFAP‑双亲索引树的调整得到UFAP‑双亲索引主树和辅助表中记录的以频繁访问网页类为根的UFAP‑双亲索引子树;步骤四,Web用户频繁访问森林中抽取用户时间偏好——驻留时间、时间间隔,通过度量用户网页驻留时间与访问网页类的时间间隔推测用户是否对网页感兴趣;通过K‑means方法对频繁访问网页类的驻留时间集进行聚类,并对网页类间跳转时间间隔也进行聚类,再结合所生成的Web用户频繁访问森林最终得到了用户时间属性的访问模式——Web用户时间偏好访问森林。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410004623.6/,转载请声明来源钻瓜专利网。