[发明专利]一种提取网站URL的方法有效

申请号：	201710389460.1	申请日：	2017-05-27
公开（公告）号：	CN107169121B	公开（公告）日：	2020-08-11
发明（设计）人：	蔡自彬	申请（专利权）人：	北京知道未来信息技术有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	司立彬
地址：	100102 北京市朝阳区阜***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取网站 url 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种提取网站URL的方法，其步骤为：

1)从网站访问日志中提取出URL路径；

2)对提取的URL路径进行去重，然后统计每一URL路径的字段个数；

3)按字段个数将URL路径分成多组，同一组内的所有URL路径的字段个数相同；

4)针对每一组URL路径，合并组内所有URL路径的字段列表，去重后统一编号；然后根据统一编号结果将组内每一URL路径转换成一向量，形成该组URL路径的矩阵；然后对该矩阵进行聚类，如果某一聚类结果中的URL路径个数超过设定阈值，则对该聚类结果进行聚合处理，识别出该聚类结果中的可变字段并将其替换为同一值；所述可变字段为同一聚类结果的各URL路径中，字段位置相同但字段值是可变的字段；其中，根据统一编号结果将组内每一URL路径转换成一向量的方法为：设合并组内所有URL路径的字段列表中的字段个数为n，然后确定该字段列表中每一字段在向量中的位置并设置一对应编号；对于每一URL路径，将该URL路径中每一字段设置一位置编号；然后对于组内的每一URL路径，从向量的第一个位置开始，遍历该URL路径，如果该URL路径存在与对应位置的字段，则向量的该位置取值为该字段在URL路径中的位置编号，否则该位置设置为0，生成该URL路径的向量；

5)将步骤4)处理后的各组URL路径合并形成该网站的URL路径列表。

2.如权利要求1所述的方法，其特征在于，将该URL路径中每一字段设置一位置编号的方法为：将该URL路径中第i个字段的位置编号设置为i。

3.如权利要求1或2所述的方法，其特征在于，所述步骤2)中，将每一URL路径按照“/”分割，得到字段列表，然后统计得到该URL路径的字段个数。

4.如权利要求1或2所述的方法，其特征在于，使用层次化的聚类算法对矩阵进行聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司，未经北京知道未来信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710389460.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取网站URL的方法有效

专利文献下载