[发明专利]检索结果聚类方法及装置有效
申请号: | 200810239256.2 | 申请日: | 2008-12-05 |
公开(公告)号: | CN101458708A | 公开(公告)日: | 2009-06-17 |
发明(设计)人: | 骆雄武;万小军;杨建武;吴於茜 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 黄志华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 结果 方法 装置 | ||
技术领域
本发明涉及互联网信息检索技术领域,尤其涉及一种检索结果聚类方法及装置。
背景技术
随着互联网的飞速发展,网络上的信息总量呈现出爆炸式的增长,为了使人们能够从大量的信息中更高效快捷地找到自己所需的信息,各种搜索引擎技术应运而生。
现有技术中,通用搜索引擎的使用方式为:用户将检索的关键词输入搜索引擎给出的关键词栏,搜索引擎根据该关键词进行检索,并将检索得到的结果按照一个排好序的列表的形式展现给用户,然后再由用户根据自身需求,从列表中找到需要的信息。当采用上述方式进行信息查询时,如果用户输入的关键词的歧义性较弱,使得搜索引擎根据该关键词返回的结果含义明确而且唯一时,搜索引擎根据关键词返回的能够满足用户查询需求的结果往往排列在列表中靠前的位置,这样用户就可以很快地找到自己需要的信息;但是,当用户输入的关键词本身具有不同的含义,使得搜索引擎根据该关键词返回的搜索结果包含了关键词的不同含义时,上述方式就会使得用户可能需要在浏览了很多个页面和结果之后才能找到自己需要的信息,对用户来说将是一项麻烦而且耗时的工作。
为了解决用户在搜索引擎返回的检索结果中查找自己需要的信息比较麻烦的问题,一方面,可以改进文本检索技术、尽量将用户可能感兴趣的结果排在靠前的位置;另一方面,则是改进便于用户在检索结果中进行浏览和查找的技术,比如对搜索引擎得到的检索结果进行自动分组,将具有相似特征(例如 同属于一个主题)的文档放在同一组,以便于用户缩小查找范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。
在现有技术中,一种常用的对搜索引擎得到的检索结果进行自动分组的传统做法是,先对搜索引擎返回的结果进行文档聚类(Clustering),然后为每个聚类产生一个标签(通常是在每个聚类中选择的一个代表性的词或者短语)。在文档聚类过程中,由于不需要使用预先设定的分类体系,而是根据文档之间的相似性动态地生成类别,因此其优点在于无需付出维护分类体系的代价;但其缺点则在于产生的聚类标签可读性较差。
为了解决采用上述方法产生的聚类标签可读性较差的问题,现有技术中还提出了多种检索结果聚类的方法,比如O.Zamir和O.Etzioni提出了后缀树聚类(STC,Suffix Tree Clustering)方法,通过为检索出的文档集构建一棵统一的后缀树,从而识别出多个文档之间的公共字符串来进行文档的自动聚类(参见O.Zamir and O.Etzioni.Web document clustering:A feasibility demonstration.In SIGIR,46-54,1998)。该方法效率高,而且对于短文档聚类效果较好,自提出后被很多系统采用,但是采用该方法得到的聚类标签仍然是在得到聚类的基础上,再选取其中的一个短语生成的,因此可读性和区分性都较差。
X.Wang提出了一种基于网络搜索日志的机器学习方法来组织搜索结果。针对一个查询,先通过用户搜索日志用星形聚类的方法学习出可能的“兴趣面(interesting aspects)”,并采用搜索日志中用户过去输入的查询词作为聚类的标签,然后用分类的方法将搜索结果分组至各个聚类。这一方法效果不错,但是,搜索日志毕竟不可能包含用户的所有可能的查询,对于那些新的在日志中难以找到相似者的查询,该方法性能可能就会受到影响(参见X.Wang and C.Zhai.Learn from web search logs to organize search results.In SIGIR,87-94,2007)。
H.Zeng等人也意识到了聚类标签的重要性,他们利用机器学习的方法,通过将人工标注和模型训练相结合,对聚类标签的生成提出了改进,并且取得 了不错的效果,但是他们的方法需要人工标注的训练集,还要结合一些复杂的特征找到合适的训练模型,然后进行候选标签的挑选,维护代价较大(参见H.Zeng,Q.He,Z.Chen,W.Ma,and J.Ma.Learning to cluster web search results.In SIGIR,210-217,2004)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239256.2/2.html,转载请声明来源钻瓜专利网。