[发明专利]基于并行编程模式的相似网页去重系统无效
申请号: | 200910061694.9 | 申请日: | 2009-04-17 |
公开(公告)号: | CN101645082A | 公开(公告)日: | 2010-02-10 |
发明(设计)人: | 李瑞轩;丁益斌;文坤梅;陈珊珊;辜希武;卢正鼎;靳延安;郑鹏;赵勇 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心 | 代理人: | 曹葆青 |
地址: | 430074湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 并行 编程 模式 相似 网页 系统 | ||
技术领域
本发明属于计算机互联网信息检索和分析技术,具体涉及一种基于并行编程模式的相似网页去重系统,该系统是对现有的相似网页去重系统的改进,结合现有的网页结构与主题内容分析技术,提取网页的特征向量,使用基于并行模式的网页指纹去重算法,在分布式系统环境中完成相似网页的去重功能,提高搜索引擎索引模块和检索模块的效率。
背景技术
随着近年来互联网技术和规模的空前发展,越来越多的传统资源正在向Internet上迁移,搜索引擎因其强大而不失方便的检索功能成为当今用户进行信息检索的主要工具。但是由于互联网规模庞大和地域访问限制等特征,较多网站使用服务器镜像来加速访问,此外在互联网环境下进行信息转载非常容易,致使大量的重复网页充斥着互联网,搜索引擎的返回结果中往往包含了许多重复的网页。统计结果表明,近似镜像网页数占总网页数的比例高到全部页面的29%,而完全相同的页面大约占全部页面的22%,这些网页要么内容完全相同,要么只在细微部分不同,比如广告信息、页面布局等其他无关信息。相似网页可以分为以下几个类别:
(1)网页内容和格式上没有任何区别;
(2)网页内容相同,但是格式不同;
(3)网页有部分重要的内容相同,而且格式相同;
(4)网页有部分重要的内容相同,但是格式不同;
而这些网页最终会被搜索引擎反复的收录。而相似网页探测就是利用某些算法准确、快速的发现这些重复网页,这对于提高搜索引擎的性能和服务质量有诸多好处:去除大量重复网页不仅可以给搜索引擎的爬行程序减轻很大的负担,在给网站服务器减轻压力的同时还可以减少网络通信量;去除大量重复网页,也就减少了大量的重复索引,从而大大提高了检索质量和用户体验。
对于相似文档或者是网页文档相似内容的去重问题在国内外信息提取领域已经得到了一系列的研究,其相关的技术理论基础是对于两篇文本文档使用MD5或者是Rabin指纹算法等文本摘要算法计算文档的信息指纹(通常指纹大小固定,且为2的整数次幂大小,如64bit和128bit),然后比较指纹,如果相同则为内容相同。目前比较流行的网页去重方法有基于向量空间模型(Vector Space Model,VSM)的网页去重方法,它通常以网页中的字或词为统计对象,即以所有的字或词来组成一个多维向量的各个维,然后统计各个词项出现的频率,并以各个词项的频率作为相应维的值,该向量成为网页的特征向量,或者以文档中的全部词来组成特征向量的各个维。相似网页的特征向量之间夹角的余弦值接近于1。可以设定某个阈值,如果余弦值超过该值,判定两个特征向量代表的网页相似。该方法思想简单,实现容易。缺点是对于网页的相似,需要进行所有的两两判定,因此只利于小规模数据上的运用,对于大规模的相似网页探测则缺乏灵活,速度太慢,而且特征向量也可能需要大量存储空间。第二种方法是基于网页关键词的方法,该方法首先通过对网页的解析,提取出网页标题的关键词,然后在网页正文中获取和标题关键词相关度高的其他关键词形成该网页的关键词集,并以倒排表的结构进行组织,当需要对一个网页判定是否存在重复网页时,可以在倒排表中查询包含该网页关键词集中的全部或部分关键词的网页,然后计算两个网页的关键词集的重叠率作为网页的相似度。然后通过阈值判断两个网页是否相似。该方法也有不足之处,如有关相同主题的不同网页,可能它们的关键词集本身就具有很大的重叠率,但网页内容并不重复,而对于这类网页判断可能会产生大量的误判,即非相似的网页被认为相似,因此准确度不高。第三种方法是采用Simhash算法,Simhash算法指采用特征向量代表文本,对于特征向量的每个成员计算指纹,然后基于权重进行叠加,得到文本的指纹,基于这种做法可以使得内容接近的文本,其指纹值也比较接近。
发明内容
本发明的目的在于提供一种基于并行编程模式的相似网页去重系统,该系统具有较高的准确度。
本发明提供的基于并行编程模式的相似网页去重系统,其特征在于:该系统包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块和网页指纹分布式批处理去重模块;
网页内容预处理模块用于处理原始的HTML网页文本数据,包括对网页文本内容和语法结构的规范化,处理后的结果仍然为HTML网页文本数据,并提供给网页特征向量提取模块;
网页特征向量提取模块对预处理后的网页文本数据进行网页特征向量提取操作;它首先识别单张网页中的网页语义块,对识别出来的网页语义块中的文本内容进行分词,提取网页主题内容,得到网页特征向量,并发送给网页特征指纹计算模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910061694.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:金片与植绒混合电脑刺绣机
- 下一篇:针床插片的隔片