[发明专利]基于网页质量的静态索引剪枝方法无效
申请号: | 201110393942.7 | 申请日: | 2011-12-01 |
公开(公告)号: | CN102521313A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 闫宏飞;单栋栋;张旭东;李晓明 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网页 质量 静态 索引 剪枝 方法 | ||
技术领域
本发明涉及互联网搜索引擎技术领域,特别涉及一种基于网页质量的静态索引剪枝方法。
背景技术
索引剪枝,是指合理的从这个倒排索引结构中去掉一些内容(信息),在牺牲较少检索效果的前提下,缩小其存储规模,加快检索速度。现有对网页的剪枝方法主要包括以下两种:
1、基于倒排链的剪枝(Term-centric Pruning,TCP)方法[1]。对于每个索引词对应的倒排链,其首先对每个倒排项P(t),按照某种方法(例如TF×IDF,TF指词项频率Term Frequency,IDF指反转网页频率Inverted Document Frequency,下同)打分,然后按得到的分数对P(t)进行排序,最后保留若干分数较高的倒排项。
2、基于网页的剪枝(Document-centric Pruning,DCP)方法[2]。对于每个网页中的词D(t)按一定的打分方式(例如TF×IDF)打分,然后按分类对D(t)进行排序,最后为每个网页保留一定比例或一定数量的D(t)。
上述的方法都假设索引词之间是独立的,所以其对一些查询(例如:短语查询)不能很好的处理。一种已有的改进方法是利用P(t)计算网页中各个句子的重要度[3],然后按重要度对句子进行排序,最后保留重要度较高的句子。这种方法有一定程度上解决了索引词之间的依赖关系,但其及存在其它两方面的问题。
1、没有考虑网页自身的重要度对保留信息量的影响。上述方法通过是对网页保留固定比例的信息。直观上越重要的网页需要保留越重要的信息,而垃圾网页的内容可以直接从索引中去除。所以保留固定比例的信息这个比例的固定可能对重要的网页偏少,对于垃圾网页则偏多。
2、没有考虑网页结构对剪枝的影响,例如:网页的锚文本,标题和对应的查询日志所包含的信息往往都比较重要。利用网页的结构,可以更加准确地计算中网页中哪些词或片段是重要的,以前的方法只考虑了网页文本之间的相似度。
这两方面问题导致了剪枝完的索引中网页的整体质量差,不利于检索。
背景技术中引用的参考文献如下:
[1]Carmel,D.,Cohen,D.,Fagin,R.,Farchi,E.,Herscovici,M.,Maarek,Y.S.,& Soffer,A.(2001).Static index pruning for information retrieval systems.Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval(pp.43-50).New York,NY,USA:ACM.
[2]Büttcher,S.,& Clarke,C.L.A.(2006).A document-centric approach to static index pruning in text retrieval systems.Proceedings of the 15th ACM international conference on Information and knowledge management(pp.182-189).New York,NY,USA:ACM.
[3]de Moura,E.S.,dos Santos,C.F.,Fernandes,D.R.,Silva,A.S.,Calado,P.,& Nascimento,M.A.(2005).Improving Web search efficiency via a locality based static pruning method.WWW(p.235).New York,New York,USA:ACM Press.
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提升剪枝完的索引中网页的整体质量以及查询的处理速度。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于网页质量的静态索引剪枝方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110393942.7/2.html,转载请声明来源钻瓜专利网。