[发明专利]一种基于树形日志模式分析的博客好友推荐方法无效
申请号: | 201110020478.7 | 申请日: | 2011-01-18 |
公开(公告)号: | CN102122291A | 公开(公告)日: | 2011-07-13 |
发明(设计)人: | 陈刚;胡天磊;寿黎但;陈珂;周健;贝毅君 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 树形 日志 模式 分析 博客 好友 推荐 方法 | ||
技术领域
本发明涉及对博客服务器日志的数据分析技术和频繁访问模式的挖掘技术,特别是涉及一种基于树形日志模式分析的博客好友推荐方法。
背景技术
随着互联网技术的不断发展,博客已经不仅仅是一个单纯的发布个人文章、信息的平台,在增加了各种类如留言、关注、好友等互动功能后,用户之间会逐渐形成一个博客圈。博客圈中包含好友、潜在好友(尚未加入好友名单的博客或者是好友的好友)和志趣相投的其他博客等等。在博客这样的典型web2.0应用中,建立志趣相投的用户社会关系是决定系统成败的关键,因此面向博客的好友推荐已经成为博客系统的主体功能。博客好友推荐应用通过用户对博客的访问行为,发现博客用户间潜在的关联性,并试着建议博客根据关联性将与有可能其具有共同兴趣的人群转化为好友关系。
博客圈是一种复杂的树形或者图形结构,目前已经存在一些面向博客的好友推荐系统。他们一般基于博客间已经建立的好友关系和服务器记录的访问量来做推荐,这些推荐方法基于频繁项挖掘或是频繁序列挖掘,存在以下不足和缺点:1)没有考虑博客间特有的平行链接关系和间接访问特性;2)没有考虑用户访问页面的先后顺序所隐藏的博客页面间的逻辑关系;3)没有充分考虑网站组织架构的层次关系和深度关系。
发明内容
针对博客服务器日志所隐含的丰富的用户行为信息和页面组织信息,本发明的目的在于提供一种基于树形日志模式分析的博客好友推荐方法,是针对博客日志的,基于树形结构挖掘的博客推荐方法。
本发明解决其技术问题采用的技术方案是:
该方法采用的步骤如下:
1) 解析原始日志,提取有效信息,在数据库中创建会话表,用来记录用户的访问路径;
2) 针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据用户的访问日志,去回环,构建以待推荐的博客为根的访问日志树;
3) 对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要求的频繁子树;
4) 把频繁子树中的节点作为候选博客好友,按设定的公式进行推荐度计算,取分值最高的若干个进行推荐。
2、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法,其特征在于:所述步骤1)中解析原始日志,提取有效信息,就是用日志解析器提取服务器中的日志,得到一个时间片内的访问记录,去掉用户请求中的冗余信息,转化成访问三元组<访问者,访问时间,访问博客>存入会话表中,时间片大小的选择依据博客访问量和运行挖掘算法的计算机的性能,访问者为注册用户的,以用户名为“访问者”的标识,访问者为匿名用户的,以用户IP为“访问者”的标识。
3、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法,其特征在于:所述步骤2)中针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据用户的访问日志,去回环,构建以待推荐的博客为根的访问日志树,就是根据网站的组织结构信息,针对待推荐的博客,在会话表中查找出访问过该博客的用户和用户第一次访问该博客的时间,针对每个查找得到的访问者,提取出查找得到的访问者在访问待推荐的博客后访问的其它博客的记录;树形结构生成器以每个访问者为单位构造访问日志树,访问者访问的每个博客对应一个节点,每个节点包含访问三元组信息,父子节点关系的形成依据连续访问请求的时间上的先后顺序;对于产生的回环,删除访问时间上最迟的边,产生的访问日志树具有三个特点:第一,访问日志树具有相同的根节点,即为待推荐的博客;第二,所有的访问日志树不存在标签相同的兄弟节点;第三,访问日志树是无序的,即每个节点的子节点是无序的。
4、根据权利要求1所述的一种基于树形日志模式分析的博客好友推荐方法,其特征在于:所述步骤3)中对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要求的频繁子树,就是把所有的访问日志树分别记为t1,t2…tn,选择合适的最小支持度minsup?(0,1),用频繁子树挖掘器进行挖掘,具体步骤如下:
第一步、遍历t1,t2…tn,把“访问三元组”中“访问博客”相同的节点归为相同节点,统计每种节点在访问日志树中出现的次数fre1,对于fre1>minsup*n的节点,记为频繁子树EQ1;
第二步、对EQ1做扩展,把两个EQ1中的节点做连接操作,构成父子关系,形成包含2个节点的树,作为候选子树,统计出候选子树在所有访问日志树中的出现次数fre2,对于fre2>minsup*n的候选子树,记为频繁子树EQ2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110020478.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像配准方法及装置
- 下一篇:一种NAND闪存控制器及其控制方法