[发明专利]基于云计算的网络页面高效精准去重系统在审

专利信息
申请号: 202011183312.2 申请日: 2020-10-29
公开(公告)号: CN112307303A 公开(公告)日: 2021-02-02
发明(设计)人: 扆亮海;刘文平 申请(专利权)人: 扆亮海
主分类号: G06F16/9532 分类号: G06F16/9532;G06F16/955;G06F16/957;G06F16/958
代理公司: 暂无信息 代理人: 暂无信息
地址: 310016 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 计算 网络 页面 高效 精准 系统
【说明书】:

发明提供的基于云计算的网络页面高效精准去重系统,针对现有的搜索引擎搜集到的网页大部分是静态网页,由于大量转载、抄袭的存在,很多网页的主体内容都是重复的,对于搜索引擎来说,重复网页无形中增加索引存储的负担,同时也会耗费更多的检索时间;本发明结合开源框架设计并实现了基于Hadoop云平台的网页去重系统,采用蜘蛛程序抓取网页后实时检测判重的方式,能更好的衔接搜索引擎的其它模块,基于云计算的网络页面高效精准去重系统在海量网页搜集阶段,就能预先对网页进行前置处理,进行网页相似性检测与发现,除去重复或相似性高的网页,从而提高索引质量,优化检索结果,给用户良好的搜索体验。

技术领域

本发明涉及一种网页精准去重系统,特别涉及基于云计算的网络页面高效精准去重系统,属于网页去重技术领域。

背景技术

伴随电子通信和计算机网络技术飞速发展,网页形式的站点高速增长,网页数量更是达到千亿级别,要从海量的信息库中找到自己关注的信息成为用户最大的困扰。搜索引擎很好的解决了这一难题,搜索引擎从网络搜集信息,并对搜集来的信息进行组织处理,然后为用户提供简单易用的检索系统,用户只需通过检索系统输入自己关注内容的关键字即可搜索到想要的信息。

现有的搜索引擎搜集到的网页大部分是静态网页,由于大量转载、抄袭的存在,很多网页的主体内容都是重复的,此外还存在着利用恶意程序自动产生的大量的词组级重复网页,在庞大的网络系统中,重复网页不仅是指重复的文章内容,还包括重复的网站结构、网站布局等。对于搜索引擎来说,重复网页无形中增加索引存储的负担,同时也会耗费更多的检索时间。因此,搜索引擎应当在从海量网页搜集阶段,就能预先对网页进行前置处理,进行网页相似性检测与发现,除去重复或相似性高的网页,从而提高索引质量,优化检索结果,给用户良好的搜索体验。

现有技术最早对网页是否重复或相似度过高的检测是基于大型文件系统中普通文本数据相似度检测开始的,由于是对文本数据进行检测,检测方式单一,后来应用到网页相似性检测,而网页是结构化的数据,其中包含各种html标签等重复性元素,其相似性检测不单只是文本的比较;对于一个成功的网页相似性检测算法,首先应当能够浏览解析html标签元素,并且能利用html标签含义和网页布局等信息进行网页特征提取,用提取的网页特征与待检测网页特征比较,判断是否重复。根据提取网页特征技术的不同,现有技术的去重算法分为三类:基于特征码去重、基于指印去重、基于聚类去重。

现有技术基于特征码的网页去重的特征码是能够表述网页内容的关键字,根据网页内容关键字权重的不同,制定一定策略选取一系列能够表征网页主体内容的关键字组成网页的特征码,判断网页是否重复,只需要检测网页特征码的相似程度即可。该算法依据两个重要的参考依据即逆文本词频因子和特征字典,逆文本词频因子是词语重要性判断标尺,一般将所样本文件总数与文件中所出现的词频个数进行相对比较,并将最后的结果进行对数化处理。特征字典是特征词的集合,包含了几乎所有的关键性词语。但该算法还存在很多问题。首先该算法很容易出现误判,尤其是网页内容只是一个很短的短文本时,其词组较少,在经过特征词典过滤之后,只剩下很少几个的特证词,很容易把两个原本不重复的网页判定为重复的;其次是算法稳定性低,对网页修改很敏感。假如对网页A做出一点修改后生成网页B,即常见的的网页转载、修改,那么这个算法很可能判断出这两个网页是不重复的。

现有技术基于指印的网页去重中最有影响的谷歌使用的SimHash,SimHash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指印,通过比较两个网页的f-bit指印的海明距离)来确定网页是否重复或高度相似。算法利用降维很好的节省了空间资源,但在比较两个网页海敏距离时,计算时间会伴随数据量的增加而递增,假设有90亿条已有的网页指印,每条指印比对都要90亿次的比较,当检测的网页数量过于庞大时,比对过程消耗的时间大幅增加;此外,SimHash算法对于长文本(多于480个字符)有较好的效果和较低的误判率,对于类似微博等较短的文本,处理效果很不理想。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扆亮海,未经扆亮海许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011183312.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top