[发明专利]一种基于连续时间马尔科夫链的网站导航性实现方法无效
申请号: | 201010139891.0 | 申请日: | 2010-04-02 |
公开(公告)号: | CN101826104A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 张卫丰;刘霞;张迎周;周国强;陆柳敏;许碧娣;朱丹梅;陆柳清 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 连续 时间 马尔科夫链 网站 导航 实现 方法 | ||
1.一种基于连续时间马尔科夫链的网站导航性实现方法,其特征在于该方法具体包括如下步骤:
步骤1):建立用户访问行为的连续时间马尔科夫链模型以及它对应的嵌入式离散马尔科夫链;
步骤2):使用网页爬虫工具收集一个网站的链接边,构建链接关系图;主要是一个链接关系矩阵,其矩阵元素表示网页间是否存在链接,简单的说,一个链接关系图就是用结点表示网页,用有向边表示网页之间的超链接;
步骤3):以会话为单位划分用户访问日志;
步骤4):遍历会话集合,统计网页的平均停留时间,生成网页之间的点击关系图,该图用一个点击关系矩阵表示,矩阵元素表示网页间转向的次数;
步骤5):根据上述链接关系图,点击关系图以及网页平均停留时间估计网页之间的转移概率和每个网页上的转移速率;
步骤6):利用幂法先计算嵌入式离散马尔科夫链的平稳分布,再计算原始模型的平稳分布,
步骤7):计算连续时间马尔科夫链的平稳分布。
2.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于使用网页爬虫工具收集一个网站的链接边,构建链接关系图L的方为:
步骤21)给出网站的一个入口网页;
步骤22)获取网页,从该网页开始解析,得到它的所有内部链接网页,继续深度优先遍历或广度优先遍历,直到得到网站的所有网页或达到预先设定的网页深度为止;
步骤23)对于步骤22)中的得到的每个链接用一条边表示,这些边构成链接关系矩阵。
3.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于以会话为单位划分用户访问日志的方法为:
步骤31)建立全局会话集合,
步骤32)统计日志中不同的ip地址和浏览器信息,
步骤33)依次取出一个ip地址利浏览器信息的组合,若取不到,说明所有记录已处理完,算法结束,
步骤34)建立对应上述组合的临时会话集合,
步骤35)按时间先后顺序依次获取日志中对应步骤33)的ip地址和浏览器信息组合的访问记录条目,若取不到,转步骤314,
步骤36)按由后到先的会话加入顺序从临时会话集合取出一个会话,若取不到,转步骤313,
步骤37)判断该会话的来源字段是否为空,若是,转步骤311,
步骤38)判断该会话是否包含来源字段的访问,若否转步骤36,
步骤39)判断日志条目的访问时间与该会话记录的最后访问时间相减是否超过30分钟,若是,转步骤36,
步骤310)将日志条目添加到该会话,转步骤35,
步骤311)判断该会话是否包含日志条目的父链接,若是,转310,否则转步骤36,
步骤312)建立新的会话,将日志条目插入该会话,并将该会话放到临时会话集合,转步骤35,
步骤313)将临时会话中的会话放到全局会话集合中,转步骤33。
4.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于统计网页的平均停留时间,构建网页点击关系图的方法是:
首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间,然后采用启发式方法判断一个会话成功与否;若一个会话不包含该网站的任何一个网页,则该会话是一个失败的会话;如果一个会话包含一个或几个网页,但是没有一个网页的停留时间超过其相应的平均停留时间,则该会话是一个失败的会话。
5.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于估计网页之间的转移概率和网页的转移速率的方法是:
步骤51)根据上述链接关系图和点击关系图估计网页之间的转移概率和每个网页上的转移速率;
采用连续时间马尔科夫链模型后,其嵌入链状态的一步自身转移概率为0;用户在网页的停留时间服从指数分布,因此,可以根据用户访问日志中记录的页面的停留时间估计出指数分布的参数;
步骤52)利用幂法计算嵌入链的平稳分布,再计算原始模型的平稳分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010139891.0/1.html,转载请声明来源钻瓜专利网。