[发明专利]网站栏目间访问路径的确定方法及装置有效
申请号: | 201510958360.7 | 申请日: | 2015-12-17 |
公开(公告)号: | CN106897297B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 李新国 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 栏目 访问 路径 确定 方法 装置 | ||
1.一种网站栏目间访问路径的确定方法,其特征在于,包括:
获取访问日志,其中,所述访问日志为根据目标网站的访问信息生成的日志,所述访问日志中包括多个被访问页面的统一资源定位符URL;
按照预设匹配规则与所述访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目;
根据所述访问日志中对每个被访问页面的访问顺序确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径;
对所述原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径;以及
去除所述目标栏目间原始访问路径中的环路,并根据所述访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径;
其中,去除所述目标栏目间原始访问路径中的环路,并根据所述访问日志在去除环路后的目标栏目间原始访问路径中确定目标栏目间目标访问路径包括:
按照访问顺序遍历所述目标栏目间原始访问路径,对所述目标栏目间原始访问路径中的环路进行切分,得到目标栏目间原始访问子路径集合;
在所述目标栏目间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标栏目间原始访问子路径集合;
根据所述访问日志分别统计所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径包含的会话数量;
根据所述会话数量对所述删除后的目标栏目间原始访问子路径集合中每条目标栏目间原始访问子路径进行排序处理;以及
从排序后的目标栏目间原始访问子路径中确定目标栏目间目标访问路径。
2.根据权利要求1所述的方法,其特征在于,对所述原始栏目间原始访问路径进行过滤处理,得到目标栏目间原始访问路径包括:
确定预先设置的目标栏目;
根据所述预先设置的目标栏目对所述原始栏目间原始访问路径中的非目标栏目进行过滤处理;以及
将过滤处理后的所述原始栏目间原始访问路径作为所述目标栏目间原始访问路径。
3.根据权利要求1所述的方法,其特征在于,根据所述访问日志中对每个被访问页面的访问顺序确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径包括:
从所述访问日志中确定访问过目标被访问页面的所有会话,得到至少一个目标会话,其中,所述目标被访问页面为与预先设置的目标栏目匹配的页面;
分别确定每个目标会话中对所述每个被访问页面的访问顺序,得到原始页面间原始访问路径;以及
根据所述原始页面间原始访问路径确定对所述每个被访问页面对应的网站栏目的访问顺序,得到原始栏目间原始访问路径。
4.根据权利要求1所述的方法,其特征在于,在获取访问日志之前,所述方法还包括:
根据预设脚本代码采集所述目标网站的访问信息;
发送所述目标网站的访问信息至目标地址;以及
在所述目标地址上根据所述目标网站的访问信息生成所述访问日志。
5.根据权利要求1所述的方法,其特征在于,所述预设匹配规则包括多个匹配规则,按照预设匹配规则与所述访问日志中每个被访问页面的URL进行匹配,得到每个被访问页面对应的网站栏目包括:
确定所述目标网站上每个栏目的匹配规则,得到多个匹配规则;以及
所述访问日志中每个被访问页面的URL与所述多个匹配规则中每个匹配规则逐一进行匹配,确定每个被访问页面对应的网站栏目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510958360.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种取料机润滑装置
- 下一篇:一种大型设备自动加油装置