[发明专利]网页去重方法、装置及设备有效
申请号: | 201910181072.3 | 申请日: | 2019-03-11 |
公开(公告)号: | CN110008419B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 戴松;纪超 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 开曼群岛大开曼岛乔治镇医院*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 装置 设备 | ||
本说明书实施例公开了一种网页去重方法、装置及设备。方案包括:通过将已采集网页的统一资源定位符和信息指纹相结合,来预先泛化出去重规则,其中去重规则用于表征相似网页的URL的结构规则,然后在采集目标网页前,可利用去重规则对目标网页的URL进行去重。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种网页去重方法、装置及设备。
背景技术
由于网站中存在大量内容重复或者内容相似的网页,这样在采集网页时,若不进行去重处理,将浪费大量资源,比如采集资源、下载资源、存储资源等。
目前,常常在下载网页后,对下载的网页进行去重,这样虽然能节省一些存储资源,但仍需要浪费大量的资源,比如去重处理资源、采集资源、下载资源;或者,常在网页下载前,针对URL(Uniform Resource Locator,统一资源定位符)去重,比如基于数据库对URL去重,即直接利用数据库的唯一性约束,通过先查询需要下载网页的URL是否已存储于URL数据库中,来过滤重复的URL,或者基于URL映射关系对URL去重,如Hash(哈希)方法、MD5(消息摘要算法)方法、或者位映射(如Bitmap或Bloom filter)方法等,这样虽然能过滤掉相同URL,来避免重复采集相同URL的网页内容,但即使是在同一网站中,大量内容重复或者内容相似的页面,其URL也可能不同,这样仅针对URL直接去重时,并不能有效地对网站中相同内容或相似内容的网页去重,采集这些网页时仍浪费大量的资源,比如采集资源、下载资源、存储资源等。
发明内容
有鉴于此,本说明书实施例提供了一种网页去重方法、装置及设备,来有效地对需要采集的网页进行去重,可节约大量资源,能更好地满足大数据场景下网页内容采集的去重。
本说明书实施例采用下述技术方案:
本说明书实施例提供一种网页去重方法,包括:
获取目标网页对应的统一资源定位符数据;
确定所述目标网页对应的统一资源定位符数据是否与预设的去重规则库中的去重规则匹配,所述去重规则用于表征相似网页的统一资源定位符的结构规则,所述去重规则为将若干已采集网页的统一资源定位符数据和所述若干已采集网页的信息指纹共同泛化得到;
根据匹配结果对所述目标网页进行去重处理。
本说明书实施例还提供一种网页去重装置,包括获取模块、确定模块和第一去重模块;
所述获取模块用于获取目标网页对应的统一资源定位符数据;
所述确定模块用于确定所述目标网页对应的统一资源定位符数据是否与预设的去重规则库中的去重规则匹配,所述去重规则用于表征相似网页的统一资源定位符的结构规则,所述去重规则为将若干已采集网页的统一资源定位符数据和所述若干已采集网页的信息指纹共同泛化得到;
所述第一去重模块用于根据匹配结果对所述目标网页进行去重处理。
本说明书实施例还提供一种用于网页去重的电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取目标网页对应的统一资源定位符数据;
确定所述目标网页对应的统一资源定位符数据是否与预设的去重规则库中的去重规则匹配,所述去重规则用于表征相似网页的统一资源定位符的结构规则,所述去重规则为将若干已采集网页的统一资源定位符数据和所述若干已采集网页的信息指纹共同泛化得到;
根据匹配结果对所述目标网页进行去重处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910181072.3/2.html,转载请声明来源钻瓜专利网。