[发明专利]网页去重方法、装置及设备有效
申请号: | 201910181072.3 | 申请日: | 2019-03-11 |
公开(公告)号: | CN110008419B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 戴松;纪超 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 装置 设备 | ||
1.一种网页去重方法,包括:
获取目标网页对应的统一资源定位符数据;
确定所述目标网页对应的统一资源定位符数据是否与预设的去重规则库中的去重规则匹配,所述去重规则用于表征相似网页的统一资源定位符的结构规则,所述去重规则为将若干已采集网页的统一资源定位符数据和所述若干已采集网页的信息指纹共同泛化得到;
根据匹配结果对所述目标网页进行去重处理,在匹配结果为匹配时,所述网页去重方法还包括:将所述目标网页对应的统一资源定位符数据存储于预设的统一资源定位符去重库中,所述统一资源定位符去重库用于记录无需再采集的网页的统一资源定位符数据。
2.如权利要求1所述的网页去重方法,在匹配结果为非匹配时,所述对所述目标网页进行去重处理包括:
采集所述目标网页;
根据采集的所述目标网页,生成所述目标网页的信息指纹;
确定所述目标网页的信息指纹是否已存在于预设的指纹库中;
若存在,则丢弃所述目标网页,若不存在,则对所述目标网页进行数据处理。
3.如权利要求2所述的网页去重方法,所述网页去重方法还包括:将所述目标网页的信息指纹存储于所述指纹库中。
4.如权利要求2所述的网页去重方法,所述对所述目标网页进行数据处理包括:提取所述目标网页中的子统一资源定位符数据,以对所述子统一资源定位符数据对应的网页进行去重。
5.如权利要求1所述的网页去重方法,在匹配结果为非匹配时,所述对所述目标网页进行去重处理包括:利用预设的统一资源定位符去重策略,对所述目标网页对应的统一资源定位符数据进行统一资源定位符去重。
6.如权利要求1所述的网页去重方法,所述将若干已采集网页的统一资源定位符数据和所述若干已采集网页的信息指纹共同泛化得到所述去重规则的步骤包括:
将每一已采集网页的统一资源定位符数据,按预设的数据结构解析,并将解析结果作为所述每一已采集网页对应的统一资源定位符结构规则;
将相同的信息指纹所对应的所述统一资源定位符结构规则,按预设的泛化策略泛化得到所述相同的信息指纹对应的所述去重规则。
7.如权利要求6所述的网页去重方法,所述数据结构包括协议部分、域名部分、路径部分和查询参数部分;
所述按预设的数据结构解析每一已采集网页的统一资源定位符数据的步骤包括:
将每一已采集网页的统一资源定位符数据按所述数据结构,获取出对应的协议部分、域名部分、路径部分和查询参数部分。
8.如权利要求7所述的网页去重方法,所述数据结构还包括深度参数,所述深度参数用于表征对应的所述每一已采集网页的统一资源定位符的结构的深度;
所述按预设的数据结构解析每一已采集网页的统一资源定位符数据的步骤还包括:
将每一已采集网页的统一资源定位符数据按所述数据结构,按预设的深度解析策略获取出所述深度参数。
9.如权利要求7所述的网页去重方法,所述按预设的泛化策略泛化得到所述相同的信息指纹对应的所述去重规则的步骤包括:
合并所述相同的信息指纹所对应的所述统一资源定位符结构规则;
按预设的泛化策略对合并后的所述相同的信息指纹所对应的所述统一资源定位符结构规则进行泛化,以获得所述去重规则。
10.如权利要求9所述的网页去重方法,在按预设的泛化策略进行泛化的步骤前,所述网页去重方法还包括:
确定合并后的所述相同的信息指纹所对应的所述统一资源定位符结构规则是否有效;
若有效,则按预设的泛化策略对合并后的所述相同的信息指纹所对应的所述统一资源定位符结构规则进行泛化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910181072.3/1.html,转载请声明来源钻瓜专利网。