[发明专利]一种基于solr技术的分布式搜索方法及系统在审
申请号: | 201310577657.X | 申请日: | 2013-11-19 |
公开(公告)号: | CN104142968A | 公开(公告)日: | 2014-11-12 |
发明(设计)人: | 吴含前;姚莉;王存哲;李露 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 solr 技术 分布式 搜索 方法 系统 | ||
技术领域
本发明涉及信息检索领域,尤其是涉及一种基于solr技术的分布式搜索方法及系统。
背景技术
互联网技术得到飞速发展,网上的数据量急剧增长,海量数据的增多对通用搜索引擎的搜索质量产生了巨大影响。这时,要在网上准确、快速找到自己需要的信息困难重重。归结其原因有三点:一是,网上的信息是复杂无序的,且不同的网站有可能出现重复的信息,因此利用搜索引擎查询到的搜索结果就会产生信息噪音;二是仅仅根据用户输入的查询词语来判断用户真正的搜索意图是非常困难的;三是搜索引擎的爬虫程序不可能爬取到所有互联网上的信息,或者说实时抓取网上信息。此时迫切需要有一种针对某一领域或者主题的搜索引擎的出现。
发明内容
本发明主要解决的技术问题是提供一种基于solr技术的分布式搜索方法及系统,能够提高电子文件自动分类的准确性,增强系统的稳定性,并能对搜索结果进行合并去重、自动分组,实现了垂直搜索,使搜索更加专注、具体和深入。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于solr技术的分布式搜索方法,包括以下步骤:
1)当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子文件进行自动分类;
2)电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进行分布式索引,索引的内容包括电子文件的重要元数据和电子文件包含的电子文档的相关元数据;
3)索引文件建立完毕后,用户输入查询语句进行电子文件的查询;
其中,所述步骤3)具体包括:采用开源搜索工具Solr的分发模式,将查询请求分发到分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用户。
在本发明一较佳实施例中,所述步骤1)中对电子文件进行自动分类时,采用协调因子来动态调整自动分类的侧重面,所述协调因子的大小为0-1。
在本发明一较佳实施例中,所述协调因子的大小为0.5。
在本发明一较佳实施例中,所述步骤1)中的朴素贝叶斯算法,具体包括以下步骤:
1.1)词库的选择与处理:采用搜索引擎的索引工具对词库中相应类别的文档分别进行索引处理;
1.2)提取待分类文档的特征词:采用搜索引擎的安装组件,对文档的摘要和关键字信息进行提取,然后对提取出的关键字进行去重,提选取特征词;
1.3)将提取出的特征词采用贝叶斯公式与词库样本文档进行贝叶斯计算,获取待分类文档针对每个分类的概率,然后比较概率值,获取最大的概率,从而找到待分类文档的所属类别。
在本发明一较佳实施例中,所述步骤1.3)中所述的贝叶斯公式为:
Class(d)=argmax P(c|d);
其中,d:文档;
c:分类;
class(d):文档所属的类别;
p(c|d):文档d属于类别c的概率;
argmaxP(c|d):文档属于某一类别的最大值;
其中的P(c|d)的值由以下公式得出:
P(c|d)=λP(c)+ (1-λ)bayes(c|d);
其中,P(c):给定分类的集合,在集合中属于c类的概率,取值为P(c)=1/n,其中n表示分类的个数;
λ:协调因子;
bayes(c|d):利用贝叶斯公式求出文档d属于类别c的概率。
本发明还提供一种分布式搜索系统,所述系统包括:
自动分类器,用于对电子文件进行自动分类;
分布式索引和搜索装置,采用Solr的复制模式和分发模式,由复制模式对分布式节点的索引文件进行备份,由分发模式进行分布式的搜索。
在本发明一较佳实施例中,所述系统还包括对查询语句进行智能提示的智能提示装置、对搜索结果进行自动分组统计的分组统计装置和搜索结果权限过滤装置。
本发明的有益效果是:基于朴素贝叶斯算法,对电子文件进行自动分类并引入协调因子来动态调整自动分类的侧重面,能够提高电子文件自动分类的准确性;基于一致性哈希算法,对电子文件进行分布式索引,能够增强系统的稳定性;通过采用Slor的分发模式,对分布式节点进行优化,并对搜索结果进行合并去重、自动分组,实现了垂直搜索,使搜索更加专注、具体和深入。
附图说明
图1为本发明一种基于solr技术的分布式搜索方法及系统的流程示意图;
图2为本发明基于solr技术的分布式搜索方法中的分布式索引状态图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310577657.X/2.html,转载请声明来源钻瓜专利网。