[发明专利]一种提取网站URL的方法有效
申请号: | 201710389460.1 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107169121B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 蔡自彬 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种提取网站URL的方法。本方法为:1)从网站访问日志中提取出URL路径;2)对提取的URL路径去重,然后统计每一URL路径的字段个数;3)按字段个数将URL路径分成多组;4)针对每一组URL路径,合并组内所有URL路径的字段列表,去重后统一编号;然后根据统一编号结果将组内每一URL路径转换成一向量,形成该组URL路径的矩阵;然后对该矩阵进行聚类,如果聚类结果中的URL路径个数超过设定阈值,则对该聚类结果进行聚合处理,识别出该聚类结果中的可变字段并将其替换为同一值;5)将各组URL路径合并形成该网站的URL路径列表。本发明可自动化的从网站海量访问日志中还原网站的所有URL。 | ||
搜索关键词: | 一种 提取 网站 url 方法 | ||
【主权项】:
一种提取网站URL的方法,其步骤为:1)从网站访问日志中提取出URL路径;2)对提取的URL路径进行去重,然后统计每一URL路径的字段个数;3)按字段个数将URL路径分成多组,同一组内的所有URL路径的字段个数相同;4)针对每一组URL路径,合并组内所有URL路径的字段列表,去重后统一编号;然后根据统一编号结果将组内每一URL路径转换成一向量,形成该组URL路径的矩阵;然后对该矩阵进行聚类,如果某一聚类结果中的URL路径个数超过设定阈值,则对该聚类结果进行聚合处理,识别出该聚类结果中的可变字段并将其替换为同一值;所述可变字段为同一聚类结果的各URL路径中,字段位置相同但字段值是可变的字段;5)将步骤4)处理后的各组URL路径合并形成该网站的URL路径列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710389460.1/,转载请声明来源钻瓜专利网。
- 上一篇:联网治超综合管理系统
- 下一篇:一种服饰导购系统及方法