[发明专利]一种网页去重的方法及系统无效
申请号: | 200710123052.8 | 申请日: | 2007-06-22 |
公开(公告)号: | CN101102316A | 公开(公告)日: | 2008-01-09 |
发明(设计)人: | 文勖 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/21;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 方法 系统 | ||
技术领域
本发明涉及网页处理领域,特别是涉及一种网页去重的方法及系统。
背景技术
随着互联网技术的迅猛发展,互联网上的网页越来越多,据统计,中文网页已逾百亿,其中大约有70%属于重复网页,重复网页所占的比重非常大。因此,如何在数量巨大的网页中有效去掉重复网页,是搜索引擎所面临的一个难题。目前是通过在网页中选取特征码,对比该特征码的方式来判断、去除重复网页。
参阅图1,为现有网页去重的方法流程图,具体步骤如下所述。
步骤S101、在基准网页中选取某个句号作为定位点。
因在网页正文中有多个句号出现,可通过定位方式在网页正文中选择某个句号作为定位点。
步骤S102、在所述定位点两边选取一定数量的汉字作为特征码。
如,在定位点两边各选取5个汉字组成特征码。
步骤S103、在备选网页中采用相同的方式获取特征码。
采用相同的方式在备选网页中进行定位,并在该定位点两边各选取5个汉字组成特征码。
步骤S104、如备选网页和基准网页中的特征码相同,判定该备选网页为重复网页。
如备选网页和基准网页中的特征码相同,则判断该备选网页为重复网页,转到步骤S105;如特征码不相同,则判断该备选网页不是重复网页。
步骤S105、删除重复的备选网页。
上述方法在两个网页的内容完全一致的情况下,可有效去除重复网页。但重复网页不仅仅包括内容完全一致的网页,还包括相对增加无实质意义信息的网页,相对差别无实质意义词语的网页。如果备选网页相对基准网页恰好在定位点附件的几个汉字中增加无实质意思的词语,两个网页的特征码就不同,上述方法就会将备选网页作为非重复网页,导致网页去重的准确率不高;如果备选网页相对基准网页恰好在定位点附件的几个汉字相同,而其他内容具有本质区别,但两个网页的特征码相同,上述方法就会将该备选网页作为重复网页删除,导致网页去重的误判率过高。
发明内容
本发明所要解决的技术问题是提供一种网页去重方法,该方法可有效提高网页去重的准确率,减少网页去重的误判率。
本发明的另一个目的是提供一种网页去重系统,该系统能够有效提高网页去重的准确率,减少网页去重的误判率。
本发明一种网页去重的方法,包括:在备选网页中选取预设数量的词语;在网页集合中选取含有上述词语数量最多的网页作为基准网页;如所述基准网页中包含上述词语的数量大于设定阈值,则将所述备选网页作为重复网页进行处理。
优选的,还包括:如所述基准网页中包含上述词语的数量小于设定阈值,则将所述备选网页加入所述网页集合。
优选的,在备选网页中选取预设数量的词语之前,还包括:对所述备选网页中词语的属性进行标注,过滤属性为停用词和虚词的词语。
优选的,按照权值从大到小的顺序在所述备选网页中选取预设数量的词语。
优选的,在所述备选网页中选取预设数量的词语之前,还包括:将各词语的训练文本数除以总训练文本数的商取对数,获得的数值再乘以所述备选网页文本中出现该词语的次数,得到所述备选网页中各词语的权值。
优选的,按下述步骤,在网页集合中选取含有上述词语数量最多的网页作为基准网页;将上述预设数量的词语作为查询串,在所述网页集合中检索;按照包含上述词语的数量从大到小将检索到的网页排序;将排序第一的网页作为基准网页。
优选的,将所述备选网页作为重复网页进行处理之前,还包括:选取排序第二的网页作为基准网页;将该基准网页中所包含的上述词语的数量与设定阈值进行比较;如该基准网页中所包含的上述词语的数量大于设定阈值,确定所述备选网页为重复网页。
优选的,确定所述备选网页为重复网页之前,还包括:依次选取排序在后的网页作为基准网页;将该基准网页中所包含的上述词语的数量与设定阈值进行比较;如该基准网页中所包含的上述词语的数量大于设定阈值,确定备选网页为重复网页处理。
本发明一种网页去重的系统,包括词语选取单元、基准网页选取单元、比较单元、及处理单元:所述词语选取单元,用于在备选网页中选取预设数量的词语;所述基准网页选取单元,用于在网页集合中选取含有上述词语数量最多的网页作为基准网页;所述比较单元,用于在所述基准网页中包含上述词语的数量大于设定阈值时,启动所述处理单元;所述处理单元,用于将所述备选网页作为重复网页进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710123052.8/2.html,转载请声明来源钻瓜专利网。