[发明专利]基于网页质量的静态索引剪枝方法无效

专利信息
申请号: 201110393942.7 申请日: 2011-12-01
公开(公告)号: CN102521313A 公开(公告)日: 2012-06-27
发明(设计)人: 闫宏飞;单栋栋;张旭东;李晓明 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网页 质量 静态 索引 剪枝 方法
【说明书】:

技术领域

发明涉及互联网搜索引擎技术领域,特别涉及一种基于网页质量的静态索引剪枝方法。

背景技术

索引剪枝,是指合理的从这个倒排索引结构中去掉一些内容(信息),在牺牲较少检索效果的前提下,缩小其存储规模,加快检索速度。现有对网页的剪枝方法主要包括以下两种:

1、基于倒排链的剪枝(Term-centric Pruning,TCP)方法[1]。对于每个索引词对应的倒排链,其首先对每个倒排项P(t),按照某种方法(例如TF×IDF,TF指词项频率Term Frequency,IDF指反转网页频率Inverted Document Frequency,下同)打分,然后按得到的分数对P(t)进行排序,最后保留若干分数较高的倒排项。

2、基于网页的剪枝(Document-centric Pruning,DCP)方法[2]。对于每个网页中的词D(t)按一定的打分方式(例如TF×IDF)打分,然后按分类对D(t)进行排序,最后为每个网页保留一定比例或一定数量的D(t)。

上述的方法都假设索引词之间是独立的,所以其对一些查询(例如:短语查询)不能很好的处理。一种已有的改进方法是利用P(t)计算网页中各个句子的重要度[3],然后按重要度对句子进行排序,最后保留重要度较高的句子。这种方法有一定程度上解决了索引词之间的依赖关系,但其及存在其它两方面的问题。

1、没有考虑网页自身的重要度对保留信息量的影响。上述方法通过是对网页保留固定比例的信息。直观上越重要的网页需要保留越重要的信息,而垃圾网页的内容可以直接从索引中去除。所以保留固定比例的信息这个比例的固定可能对重要的网页偏少,对于垃圾网页则偏多。

2、没有考虑网页结构对剪枝的影响,例如:网页的锚文本,标题和对应的查询日志所包含的信息往往都比较重要。利用网页的结构,可以更加准确地计算中网页中哪些词或片段是重要的,以前的方法只考虑了网页文本之间的相似度。

这两方面问题导致了剪枝完的索引中网页的整体质量差,不利于检索。

背景技术中引用的参考文献如下:

[1]Carmel,D.,Cohen,D.,Fagin,R.,Farchi,E.,Herscovici,M.,Maarek,Y.S.,& Soffer,A.(2001).Static index pruning for information retrieval systems.Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval(pp.43-50).New York,NY,USA:ACM.

[2]Büttcher,S.,& Clarke,C.L.A.(2006).A document-centric approach to static index pruning in text retrieval systems.Proceedings of the 15th ACM international conference on Information and knowledge management(pp.182-189).New York,NY,USA:ACM.

[3]de Moura,E.S.,dos Santos,C.F.,Fernandes,D.R.,Silva,A.S.,Calado,P.,& Nascimento,M.A.(2005).Improving Web search efficiency via a locality based static pruning method.WWW(p.235).New York,New York,USA:ACM Press.

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是:如何提升剪枝完的索引中网页的整体质量以及查询的处理速度。

(二)技术方案

为解决上述技术问题,本发明提供了一种基于网页质量的静态索引剪枝方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110393942.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top