[发明专利]对网址进行查重的方法及装置在审
申请号: | 201510784239.7 | 申请日: | 2015-11-16 |
公开(公告)号: | CN105468683A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 李雪峰 | 申请(专利权)人: | 孙宝文;李雪峰 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 江崇玉 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网址 进行 方法 装置 | ||
1.一种对网址进行查重的方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本中包含有若干个训练组,每个训练组中包含 至少一个网址,对于所述若干个训练组中的任意一个训练组,当所述训练组中 包含两个或者两个以上网址时,所述两个或者两个以上网址指向同一网页;
根据所述训练样本确定提取规则,所述提取规则用于指示在一个网址中提 取对应网页的标识;
根据所述提取规则提取目标网址集合中的各个网址对应网页的标识;
将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网 址。
2.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本确定 提取规则,包括:
通过预设的训练模型对所述若干个训练组进行机器训练,根据训练结果确 定所述提取规则,所述提取规则中包含特征字段以及所述特征字段与网页的标 识之间的格式关系。
3.根据权利要求1所述的方法,其特征在于,
所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同 一电商网站;或者,所述若干个训练组中包含的网址与所述目标网址集合中的 各个网址分别属于不同的电商网站,所述网页的标识为商品标识。
4.根据权利要求1所述的方法,其特征在于,所述获取训练样本,包括:
获取样本网址集合,所述样本网址集合中包含所述若干个训练组中的各个 网址;
对所述样本网址集合中的各个网址逐一进行网页内容爬取,获得所述样本 网址集合中的各个网址各自对应的网页内容;
根据所述样本网址集合中的各个网址各自对应的网页内容进行查重;
根据查重结果,将所述样本网址集合中的各个网址中,对应相同网页内容 的网址添加入同一训练组。
5.根据权利要求1所述的方法,其特征在于,所述将提取到的网页的标识 相匹配的至少两个网址确定为页面内容相同的网址,包括:
将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址;
或者,
对提取到的网页的标识进行哈希变换,获得所述各个网址对应的哈希值, 将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。
6.一种对网址进行查重的装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练样本,所述训练样本中包含有若干个训练组, 每个训练组中包含至少一个网址,对于所述若干个训练组中的任意一个训练组, 当所述训练组中包含两个或者两个以上网址时,所述两个或者两个以上网址指 向同一网页;
规则确定模块,用于根据所述训练样本确定提取规则,所述提取规则用于 指示在一个网址中提取对应网页的标识;
标识提取模块,用于根据所述提取规则提取目标网址集合中的各个网址对 应网页的标识;
网址确定模块,用于将提取到的网页的标识相匹配的至少两个网址确定为 页面内容相同的网址。
7.根据权利要求6所述的装置,其特征在于,
所述规则确定模块,用于通过预设的训练模型对所述若干个训练组进行机 器训练,根据训练结果确定所述提取规则,所述提取规则中包含特征字段以及 所述特征字段与网页的标识之间的格式关系。
8.根据权利要求6所述的装置,其特征在于,
所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同 一电商网站;或者,所述若干个训练组中包含的网址与所述目标网址集合中的 各个网址分别属于不同的电商网站;所述网页的标识为商品标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙宝文;李雪峰,未经孙宝文;李雪峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510784239.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:减少冗余数据的方法及装置
- 下一篇:一种融合用户关系的自适应微博话题追踪方法