[发明专利]一种用于获取页面相似度的方法与设备有效
申请号: | 201210089360.4 | 申请日: | 2012-03-29 |
公开(公告)号: | CN103365879B | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 胡蓉;赵枫;孙立波 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 罗朋 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 获取 页面 相似 方法 设备 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种获取页面相似度的技术。
背景技术
在现有技术中一般基于网页关键词对网页进行相似度判定,例如可通过对网页进行解析以提取网页关键词,随后查询包含全部或大部分该网页关键词的其他网页,接着计算该两个网页的关键词重叠度以确定其页面相似度。现有技术的缺陷在于由于没有考虑到不同页面块在整个页面中的不同权重,当相互比较的两个页面中一个页面包含例如留言块时,该两个页面的关键词重叠度可能不高,但该两个页面的其他页面块的内容可能相似,因此会造成较高的误判率,从而导致对页面相似度的判断准确性较低,进一步会降低过滤重复网页的准确性。
因此,如何实现有效地获取页面相似度,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种用于获取页面相似度的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的用于获取页面相似度的方法,该方法包括以下步骤:
a确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;
b根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。
根据本发明的另一方面,还提供了一种用于获取页面相似度的设备,该设备包括:
第一相似度确定装置,用于确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度;
第二相似度确定装置,用于根据两个页面中各个页面块的权重及所述块相似度,加权确定所述两个页面的页面相似度。
与现有技术相比,本发明中首先确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度,接着根据两个页面中各个页面块的权重及其块相似度,加权确定该两个页面的页面相似度,从而将页面块的权重引入页面相似度判定标准中,通过对不同页面块的准确赋权,体现出不同页面块的价值差异,从而获得更为准确的页面相似度判定结果,进一步为保证较高的过滤重复网页准确性提供了保证。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于获取页面相似度的设备示意图;
图2示出根据本发明一个优选实施例的用于获取页面相似度的设备示意图;
图3示出根据本发明另一优选实施例的用于获取页面相似度的设备示意图;
图4示出根据本发明又一优选实施例的用于获取页面相似度的设备示意图;
图5示出根据本发明另一个方面的用于获取页面相似度的方法流程图;
图6示出根据本发明一个优选实施例的用于获取页面相似度的方法流程图;
图7示出根据本发明另一优选实施例的用于获取页面相似度的方法流程图;
图8示出根据本发明又一优选实施例的用于获取页面相似度的方法流程图;
图9示出根据本发明一个方面的用于获取页面相似度的示例图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于获取页面相似度的设备示意图。其中,获取设备1包括第一相似度确定装置111和第二相似度确定装置112。
在此,获取设备1是网络设备,其中,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
以下参照图1来对获取设备1获取页面相似度的过程进行详细描述:
具体地,第一相似度确定装置111确定一个页面中的一个或多个页面块与另一页面中的一个或多个页面块之间的块相似度。
在此,所述页面块意指页面中显示的特定内容块,其包括但不限于以下至少任一项:
1)标题块;
2)正文块;
3)图片块;其包括图片标题、图片摘要等信息。
4)超文本链接块;
5)广告块。
本领域技术人员应能理解上述页面块仅为举例,其他现有的或今后可能出现的页面块如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210089360.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理数据的方法和装置
- 下一篇:用于LED照明灯的胶带