[发明专利]网页相似度计算方法、装置、设备、计算机可读存储介质有效

专利信息
申请号: 201710934918.7 申请日: 2017-10-10
公开(公告)号: CN109657208B 公开(公告)日: 2023-07-04
发明(设计)人: 张永伟;姜珊珊;董滨;童毅轩;丁磊 申请(专利权)人: 株式会社理光
主分类号: G06F40/194 分类号: G06F40/194;G06F40/14
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 黄灿;张博
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 相似 计算方法 装置 设备 计算机 可读 存储 介质
【说明书】:

发明提供了一种网页相似度计算方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。网页相似度计算方法包括:获取待比较网页的DOM树,并对DOM树进行去噪处理;从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染主体结构标签生成布局块;根据布局块的坐标对待比较网页的布局块分别进行横向划分,得到N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。本发明能够准确计算出两个网页间的相似度。

技术领域

本发明涉及数据处理技术领域,特别是指一种网页相似度计算方法、装置、设备、计算机可读存储介质。

背景技术

目前互联网上的重复网页非常多,因此,从不同的网站抓取到相似网页的可能性非常高。比如,同一条新闻出现时,网上会以各种形式进行转载复制传播,从而导致两个网页的相似程度非常高,这种相似程度高的网页,可以是同一个网站上的网页,也可以不是同一个网站上的网页。搜索引擎在收录网页的时候,通常会对两个网页进行比较,看看两个网页是否相似,对相似度高的网页进行去重或者聚合展现。

现有的相似度计算方法包括几种:1)利用URL去重;2)利用内容计算相似;3)利用链接关系计算相似;4)利用网页的结构特征(DOM树结构)计算相似。利用URL去重,只能做到简单的去重,无法解决不同URL,内容相似的问题;利用链接关系进行相似度计算还不是很成熟,链接关系只是网页中权重较小的信息,效果不是很好;利用网页的结构特征计算,也只能解决网页结构完全一致的重复,而网站制作时一般都自己的网页结构,纯粹的网站结构上的抄袭已经比较少用,而且从实际效果看引入网页结构特征对于相似度计算的贡献也不多。目前业界,一般多数还是利用内容信息从网页中提取内容,计算相似,但是对于内容信息提取困难的网页(比如正文及摘要较少、大量图片出现、正文位置很难识别、Meta属性伪造等网站等),利用现有方法就很难做到较好的判断。

综上所述,现有技术计算网页相似度的准确度较差。

发明内容

本发明要解决的技术问题是提供一种网页相似度计算方法、装置、设备、计算机可读存储介质,能够准确计算出两个网页间的相似度。

为解决上述技术问题,本发明的实施例提供技术方案如下:

一方面,提供一种网页相似度计算方法,包括:

获取待比较网页的DOM树,并对所述DOM树进行去噪处理;

从去噪处理后的DOM树中选择DOM树的主体结构标签,渲染所述主体结构标签生成布局块;

根据所述布局块的坐标对两个待比较网页的布局块分别进行横向划分,得到两个待比较网页的N组比对区域块,第k组比对区域块包括其中一待比较网页的第k比对区域块和对应的另一待比较网页的第k比对区域块,k为大于0不大于N的整数;

将每组的两个比对区域块进行比对,获取每组比对区域块的页面结构相似度,并根据N组比对区域块的页面结构相似度得到两个待比较网页的整体网页结构相似度。

进一步地,所述对所述DOM进行去噪处理包括:

移除所述DOM树中的功能性标签;

将所述DOM树中重复出现的多个标签合并为一个标签。

进一步地,所述从去噪处理后的DOM树中选择DOM树的主体结构标签包括:

获取去噪处理后的DOM树的每一层的标签,从根节点开始逐层渲染所述DOM树的标签,当根据其中一层标签在行方向或列方向上能够生成至少两个布局块时,选取该层标签作为DOM树的主体结构标签。

进一步地,所述渲染所述主体结构标签生成布局块包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710934918.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top