[发明专利]搜索引擎中包含WEB对象的聚类方法无效
申请号: | 200910152879.0 | 申请日: | 2009-09-18 |
公开(公告)号: | CN101706790A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 陈珂;陈刚;寿黎但;胡天磊;盛振华 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林怀禹 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作用的特征词汇,提高相似度计算的精确性,并且建立一种新型的自适应记录合并模型,有效地提高各个记录簇中记录间高相似度比例,减少噪音对合并过程的影响,具有很高的准确性,健壮性和通用性。本发明充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。 | ||
搜索关键词: | 搜索引擎 包含 web 对象 方法 | ||
【主权项】:
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下:1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的信息聚类处理系统,实现垂直搜索引擎检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910152879.0/,转载请声明来源钻瓜专利网。
- 上一篇:复分解器
- 下一篇:直管并排串联式夹套反应器