[发明专利]搜索引擎中包含WEB对象的聚类方法无效
申请号: | 200910152879.0 | 申请日: | 2009-09-18 |
公开(公告)号: | CN101706790A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 陈珂;陈刚;寿黎但;胡天磊;盛振华 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 包含 web 对象 方法 | ||
技术领域
本发明涉及垂直搜索引擎引擎文本检索技术,尤其是涉及一种搜索引擎中包含WEB对象的聚类方法。
背景技术
随着互联网上数据的规模及复杂度以指数级增长,传统搜索引擎对于用户呈现杂乱的搜索结果的表现方式已逐渐不能满足人们的需求。高细粒度的聚类方法针对这一问题应运而生,目前研究机构以及大型互联网公司已经将高细粒度的聚类方法作为研究的热点。
面向WEB对象的数据是指对网页经过简单前期处理但未对内容进行属性标注的文本数据,这类数据描述大量对象信息,如产品,地址,事件等。虽然现在大部分垂直搜索系统能一定程度上聚类搜索结果,但是这种聚类粒度远远没有达到很高的标准,在噪音的影响下,使得用户亲和力降低很多。另一方面,提供高细粒度的搜索结果可以使垂直搜索引擎提供附带的高质量的检索功能。
由于WEB对象各个属性在同一类别下具有一定的收敛性,差异性只会存在于个别特殊的属性中,而且WEB对象一般是属于短文本信一息,因此利用这些联系可以设计出高细粒度的聚类方法。
发明内容
本发明的目的在于提供一种搜索引擎中包含WEB对象的聚类方法。本发明解决其技术问题采用的技术方案的步骤如下:
1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;
2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;
3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;
4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;
5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的信息聚类处理系统,实现垂直搜索引擎检索结果。
所述步骤1)的建模方法应将原始的WEB对象文本数据结构化,表示成计算机系统易理解与处理的形式。
所述步骤2)中特征标志建立的一个WEB对象实体特征的模型,构建WEB对象应具有以下特点:a)能够重点突出同一类WEB对象之间的关键特征,减少文本差异对聚类结果的影响;b)能够突出不同WEB对象之间的差异和同属性在不同类别下的差异。
所述步骤2)中特征标志建立的一种衡量词汇间关联度的建模方法,构建WEB对象应具有以下特点:a)基于树状结构,具有语义的上下层次关系;b)表示各个词汇间的关联性和凝聚性.
所述步骤3)应实现现实网络中同一个意义上WEB对象的相似度,提供正确的聚类标准。
所述步骤4)中的一个自适应的记录合并模型应利用WEB对象的相似度,词汇间关联度和现实网络的中闭包结构,统一WEB对象的聚类,归并所有统一对象。
所述步骤5)的具体实施应满足如下需求:
1)所建立的层次化垂直搜索引擎系统,应满足搜索结果的统一性,确保各个网站上的WEB对象可以准确高效聚类,减少噪音的影响。
2)所建立的层次化垂直搜索引擎系统,应满足服务器端对检索到的WEB对象进行高效的一次聚类。然后根据具体的应用需求,对中间结果进行二次归类合并,得到准确的聚类结果。
本发明具有的有益效果是:
充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。
附图说明
图1是本发明实施步骤流程图。
图2是目标聚类检索系统工作原理示意图。
具体实施方式
现结合附图和实施例对本发明作进一步说明。
如图1与图2所示,本发明具体实施过程和工作原理如下:
1)根据垂直搜索引擎具体应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择WEB对象表示和关联度选型;
2)根据定义的建模方法,建立一种新型的WEB对象特征标志方法;
3)定义衡量词汇信息重要性的尺度,以及基于该尺度下WEB对象的相似程度;
4)建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;
5)根据具体应用,在以上步骤以及垂直搜索引擎服务系统上,建立WEB对象的信息聚类处理系统,实现高标准的垂直搜索引擎检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910152879.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复分解器
- 下一篇:直管并排串联式夹套反应器