[发明专利]超关键字分布式搜索方法无效
申请号: | 201010171392.X | 申请日: | 2010-05-13 |
公开(公告)号: | CN102243631A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 吴春尧 | 申请(专利权)人: | 吴春尧 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键字 分布式 搜索 方法 | ||
所属技术领域
本发明提出了一种文本的全文搜索的信息检索方法,超关键字分布式搜索方法,尤其适合海量数据信息检索,实现基于全文智能匹配的搜索,保持了搜索分布式特点、提高搜索准确性。
背景技术
目前,搜索引擎使用的关键字检索方式是信息检索的主要应用,通过关键字的检索和排名技术,完成分布式检索功能,并把最可能匹配的结果排序展示。智能技术结合搜索,即搜索引擎智能化,基本上可以分成以下几个方面:
1.预先对数据进行分类、聚类处理,通过结果展示这些类别,通过用户交互提高搜索效果;
2.利用搜索日志,挖掘关键词的潜在联系达到关键词的扩展方法;
3.利用智能体技术,完成智能化方法;
4.将智能技术融入爬虫当中进行处理。
这些方法都是基于关键词搜索的,而在用户有整个文本搜索(输入为整个文本,比如:利用简历找职位)需求情况下却没有办法做到。关键字搜索引擎智能化方法无法解决这些智能化问题。需要一种不破坏搜索引擎的分布式、大数据量的处理能力前提下的智能化方法。本发明正是要解决这个问题。
发明内容
超关键字分布式搜索方法是一种对文本全文智能匹配的信息检索方法,解决海量数据信息检索大数据量、快速、高相关性搜索。它是相对于关键字搜索提出的,关键字的搜索方法只允许利用有限的关键字进行搜索,无法把全文都放到搜索引擎中进行搜索,如果把长文本输入搜索引擎,会被截断处理,保留前面有限的字符串。超关键字搜索把整个文本作为搜索输入,搜索引擎获得更多有用的信息提供更符合用户输入的搜索结果。该方法在搜索引擎架构上做相应的改进,保持了搜索引擎分布式大数据量的处理特点;这是由于搜索引擎架构的各个阶段进行智能化融合处理。具体说来,超关键字搜索是把全文信息形式化,利用整个文本信息,获得有代表的关键字,关键字利用上下文进行消岐处理,超关键字包含关键字本身、关键字消岐结果、关键字重要的程度表示即权重、和关键字之间关系,关键字的消岐结果为关键字及其含义串对;关键字关系为关键字对和关系名。这种搜索称为超关键字搜索。
把整个文本作为搜索输入需要充分利用智能技术。本发明提出的超关键字分布式搜索方法是关键字搜索引擎架构的扩展,它使得搜索引擎可以保持关键字搜索分布式并发的特点,也可以融入目前多种机器学习算法,基本过程如下:
1.系统对输入的文本进行特征提取,获得超关键字集,这是有别于现有搜索引擎的关键之处。
2.搜索结果的排名是根据前面提出的特征进行排序的,其排序算法是机器学习算法集。即:各种现有的机器学习算法都可以放到现在的搜索架构当中。
3.输入文本的特征提取基于本文主题提取方法的各种方法;在训练学习阶段,使用了文本的预分类技术,分类技术可以为特征的权重做更准确的评价。
超关键字分布式搜索架构是将本文的机器识别算法分布化,换句话说,是把文本识别的一个完整过程“搜索引擎化”,从另一个角度来看,是分布式搜索引擎在各个阶段的“智能化”,是一种文本智能处理和搜索引擎的紧密结合的架构。这使得搜索引擎保持了分布式多并发等优点外,还增加了匹配的准确度,解决了搜索引擎的几个大的问题:“全”“准”“相关性”。
关键字分布式搜索引擎的架构检索模块由五部分构成:建索引库程序(INDEXER),基础检索服务(BS),信息检索服务(DI),高级检索服务(AS),检索模块客户端(CLIENT)。见图1。
下面简单说明这个架构的实现方法:
图中双向箭头表示两者之间建立稳定的网络连接,进行数据的交换。单向箭头表示数据传送方向。
数据交换过程如下:
1.INDEXER根据文档和相关信息建立索引库。
2.单机资源限制,需要建立多个索引库,分布到不同机器上。
3.索引库对应本机的一组BS/DI服务。BS提供与排序相关的信息,DI提供其余需要显示的信息。
4.CLIENT向AS发出查询请求,AS会根据需要访问相关的一组BS取得与排序相关的所有信息,这个过程即是查询分析。并且将各个BS返回的信息进行汇总归并,得到最后的排序结果,并且根据当前的显示位置确定需要显示的具体条目,再访问相关DI取得全部的需要显示的信息,返回给CLIENT。
根据实际应用需求,检索模块具备如下技术要点:
1.构建服务器Indexer与存储交互,面向数据全集,计算索引超关键字权重。基于MD5实现索引数据分块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴春尧,未经吴春尧许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010171392.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种增氧机的注塑叶轮及模具
- 下一篇:低噪音多刀头切割台锯