[发明专利]一种Diff打分方法以及系统在审
申请号: | 201210016325.X | 申请日: | 2012-01-18 |
公开(公告)号: | CN103218358A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 翁岩青 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波;韩剑伟 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 diff 打分 方法 以及 系统 | ||
1.一种Diff打分方法,其特征在于,包括以下步骤:
a)获取待比较的第一网页和第二网页;
b)提取所述第一网页和所述第二网页中的元素信息,并分别对所述第一网页和所述第二网页中的相应元素信息进行对比,获得Diff结果;
c)为所述元素信息赋予不同的权重,并根据所述权重统计分析所述Diff结果,以获取所述第一网页和第二网页的相似度值。
2.根据权利要求1所述的方法,其特征在于,所述步骤b)还进一步包括:
提取所述第一网页和所述第二网页中的元素信息,并分别对所述第一网页和所述第二网页中的相应元素信息进行向量化,生成第一向量和第二向量;
对所述第一向量和所述第二向量进行对比,获得Diff结果。
3.根据权利要求1或2所述的方法,其特征在于,在步骤a)中,所述第一网页由第一版本转码器对原始网页转码获得;所述第二网页由第二版本转码器对所述原始网页转码获得。
4.根据权利要求3所述的方法,其特征在于,所述原始网页来源于本地存储、实时抓取或代理抓取。
5.根据权利要求1所述的方法,其特征在于,所述元素信息包括:所述元素的个数和所述元素的内容属性。
6.根据权利要求1所述的方法,其特征在于,所述元素包括:图片、链接、纯文本、折叠分支。
7.一种Diff打分系统,其特征在于,包括:
获取装置,用于获取待比较的第一网页和第二网页;
对比装置,用于提取所述第一网页和所述第二网页中的元素信息,并分别对所述第一网页和所述第二网页中的相应元素信息进行对比,获得Diff结果;
加权装置,用于为所述元素信息赋予不同的权重,并根据所述权重统计分析所述Diff结果,以获取所述第一网页和第二网页的相似度值。
8.根据权利要求7所述的系统,其特征在于,所述对比装置还进一步包括:
向量生成模块,用于提取所述第一网页和所述第二网页中的元素信息,并分别对所述第一网页和所述第二网页中的相应元素信息进行向量化,生成第一向量和第二向量;
Diff模块,用于对所述第一向量和所述第二向量进行对比,获得Diff结果。
9.根据权利要求7或8所述的系统,其特征在于,所述获取装置还包括:
第一转码器,用于将原始网页转码生成所述第一网页;
第二转码器,用于将所述原始网页转码生成所述第二网页。
10.根据权利要求9所述的系统,其特征在于,所述原始网页来源于本地存储、实时抓取或代理抓取。
11.根据权利要求7所述的系统,其特征在于,所述元素信息包括:所述元素的个数和所述元素的内容属性。
12.根据权利要求7所述的系统,其特征在于,所述元素包括:图片、链接、纯文本、折叠分支。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210016325.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对酒精性肝损伤有保护作用的蓝莓叶提取物
- 下一篇:热能水循环系统