[发明专利]中文网页文本除重系统及方法无效
申请号: | 201010281715.0 | 申请日: | 2010-09-15 |
公开(公告)号: | CN102402537A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 陈运文 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 刘昌荣 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 网页 文本 系统 方法 | ||
技术领域
本发明涉及一种中文网页文本除重系统,本发明还涉及一种利用上述除重系统去除重复中文网页的方法。
背景技术
目前,互联网中的信息数量正在以爆炸式的速度增长,用户必须借助搜索引擎才能在互联网海量的信息中查找到自己想要的信息。全文搜索引擎,如google、百度等,是真正意义上的搜索引擎,它通常会定期派出“蜘蛛”(spider)程序,按照一定规则抓取互联网上的网页,保存到本地存储系统中,当用户在搜索引擎的检索界面输入查询关键词后,搜索引擎就在本地的网页数据库中查找与查询条件匹配的记录,并按照一定的排序规则将检索结果返回给用户。
但是,由于互联网上的信息经常被互相转载,导致信息的重复率很高,这使得搜索引擎检索出的网页中往往存在大量内容相同的重复网页。重复网页有多种表现形式,有的是没有一点改动的拷贝;有的在内容上稍作了修改,比如,增加少量点评,删除少许文字,或改变文字段落顺序;有的则进行了细微的格式变化,比如,改变字体,修改标点,改变文字大小写等。据统计,互联网的网页中,内容大部分相同的页面占29%,而主体内容完全相同的页面占22%,也就是说,互联网上的全部网页中,约有1/4是重复的网页。
对于搜索引擎来说,这些存在于互联网中的数量庞大的重复网页,会带来很多问题。由于搜索引擎会将spider程序抓取到的网页下载并保存到本地存储系统中,而存储系统的容量是有限制的,大量重复网页会浪费搜索引擎的资源,挤占其他有价值网页的存储空间,此外,搜索引擎的检索效率也会因为本地网页数据库数据量的增加而降低,如此不仅浪费了用户的时间,也影响了用户的搜索体验。
网页除重,即去除互联网上的重复网页,是解决上述问题的有效方法,但是,由于搜索引擎收录的网页数量极其庞大,约在千万页以上,像google这种大型搜索引擎收录的网页数量更是多达几十亿,而且网页的存在形式也很复杂多样,如果直接将spider程序新抓取的一个网页和搜索引擎系统中已收录的海量网页逐一进行比对,计算的复杂度会非常高,例如,假设搜索引擎收录的文档数为n,文档平均长度为m,如果相似度计算的复杂度是T,T是m的函数,即T=T(m),文档两两比较的复杂度是0(n^2),则合起来的复杂度就是0(n^2×T(m)),这样的复杂度,对于搜索引擎这种需要处理海量数据的系统,显然是难以接受的。
发明内容
本发明要解决的技术问题是提供一种中文网页文本除重系统,它可以快速、准确地识别并去除互联网中大量内容重复的中文网页。
为解决上述技术问题,本发明的中文网页文本除重系统,包括:
索引服务器,用于计算中文网页的数字签名,该索引服务器进一步包括网页文本预处理模块、组合特征句提取模块以及数字签名计算模块,该网页文本预处理模块用于对中文网页文本进行归一化处理;该组合特征句提取模块用于提取经网页文本预处理模块处理后的文本的组合特征句;该数字签名计算模块用于计算组合特征句的数字签名,并将计算得到的数字签名传给检索服务器;
检索服务器,用于判断中文网页是否重复,该检索服务器进一步包括网页文本抓取模块和哈希查询模块,该网页文本抓取模块用于抓取互联网上的中文网页文本,并传给索引服务器;该哈希查询模块中包含有用于存放搜索引擎系统已保存网页的数字签名的哈希表,该哈希查询模块用于查询待判定网页的数字签名是否与哈希表中的值存在重复,如果不存在重复,则将该待判定网页的数字签名加入到哈希表中。
本发明要解决的另一技术问题是提供一种利用上述除重系统进行中文网页文本除重的方法。
为解决上述技术问题,本发明的中文网页文本除重方法,包括如下步骤:
1)网页文本归一化处理,即对文本的编码,文本中的全角、半角字符以及大、小写字符进行一致性转换;
2)提取文本的组合特征句;
3)计算组合特征句的数字签名;
4)查找哈希表,判定数字签名是否与哈希表中的值存在重复,若存在重复,则去除该网页;若不存在重复,则将该网页保存到搜索引擎系统中,并将其数字签名添加到哈希表中;
5)重复步骤1)至4),判定下一个待处理网页文本;
所述步骤2)进一步包括如下步骤:
21)判定文本的长度,若小于文本长度阈值,则从该文本中提取特征字符,作为组合特征句;若大于或者等于文本长度阈值,则转到步骤22);
22)设置特征句分隔符列表,该特征句分隔符列表中的字符定义为分隔符;
23)依次遍历文本,提取候选组合特征句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010281715.0/2.html,转载请声明来源钻瓜专利网。