[发明专利]对网址进行查重的方法及装置在审
申请号: | 201510784239.7 | 申请日: | 2015-11-16 |
公开(公告)号: | CN105468683A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 李雪峰 | 申请(专利权)人: | 孙宝文;李雪峰 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网址 进行 方法 装置 | ||
技术领域
本公开涉及网络技术领域,特别涉及一种对网址进行查重的方法及装置。
背景技术
网络爬虫是一种自动爬取互联网上的信息的程序或者脚本。网络爬虫始于 一张被称作种子的URL(UniformResourceLocator,统一资源定位符)列表。 当网络爬虫访问这些URL时,会甄别出页面上所有的超链接(网址),并将这 些网址写入一张“待访列表”,之后对该“待访列表”中的各个网址进行循环访 问,以爬取这些网址对应的页面内容。
由于互联网的拓扑结构,“待访列表”中有很多重复网址,因此,在爬取页 面内容之前,需要对“待访列表”中的网址进行查重,根据查重结果去掉重复 的网址。比如,对“待访列表”中的网址进行查重时,可以对“待访列表”中 的各个网址进行哈希变换,用变换后的哈希值进行查重处理,将哈希值相同的 网址确定为重复的网址。
在实际应用中,有很多不同的网址会指向相同的网页,比如,在一个电商 网站中,同一个商品页面可能对应有多个不同的网址,仅仅通过比对网址的哈 希值进行查重的方式并不能保证查重的准确率,另外,对整个网址进行哈希变 换也需要消耗大量的时间,影响查重效率。
发明内容
本公开实施例提供了一种对网址进行查重的方法及装置,所述技术方案如 下:
根据本公开实施例的第一方面,提供了一种对网址进行查重的方法,该方 法包括:
获取训练样本,所述训练样本中包含有若干个训练组,每个训练组中包含 至少一个网址,对于所述若干个训练组中的任意一个训练组,当所述训练组中 包含两个或者两个以上网址时,所述两个或者两个以上网址指向同一网页;
根据所述训练样本确定提取规则,所述提取规则用于指示在一个网址中提 取对应网页的标识;
根据所述提取规则提取目标网址集合中的各个网址对应网页的标识;
将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网 址。
可选的,所述根据所述训练样本确定提取规则,包括:
通过预设的训练模型对所述若干个训练组进行机器训练,根据训练结果确 定所述提取规则,所述提取规则中包含特征字段以及所述特征字段与网页的标 识之间的格式关系。
可选的,所述若干个训练组中包含的网址与所述目标网址集合中的各个网 址属于同一电商网站;或者,所述若干个训练组中包含的网址与所述目标网址 集合中的各个网址分别属于不同的电商网站,所述网页的标识为商品标识。
可选的,所述获取训练样本,包括:
获取样本网址集合,所述样本网址集合中包含所述若干个训练组中的各个 网址;
对所述样本网址集合中的各个网址逐一进行网页内容爬取,获得所述样本 网址集合中的各个网址各自对应的网页内容;
根据所述样本网址集合中的各个网址各自对应的网页内容进行查重;
根据查重结果,将所述样本网址集合中的各个网址中,对应相同网页内容 的网址添加入同一训练组。
可选的,所述将提取到的网页的标识相匹配的至少两个网址确定为页面内 容相同的网址,包括:
将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址;
或者,
对提取到的网页的标识进行哈希变换,获得所述各个网址对应的哈希值, 将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。
根据本公开实施例的第二方面,提供了一种对网址进行查重的装置,所述 装置包括:
样本获取模块,用于获取训练样本,所述训练样本中包含有若干个训练组, 每个训练组中包含至少一个网址,对于所述若干个训练组中的任意一个训练组, 当所述训练组中包含两个或者两个以上网址时,所述两个或者两个以上网址指 向同一网页;
规则确定模块,用于根据所述训练样本确定提取规则,所述提取规则用于 指示在一个网址中提取对应网页的标识;
标识提取模块,用于根据所述提取规则提取目标网址集合中的各个网址对 应网页的标识;
网址确定模块,用于将提取到的网页的标识相匹配的至少两个网址确定为 页面内容相同的网址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙宝文;李雪峰,未经孙宝文;李雪峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510784239.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:减少冗余数据的方法及装置
- 下一篇:一种融合用户关系的自适应微博话题追踪方法