[发明专利]一种解决ApacheSolr短语搜索不准的方法有效

专利信息
申请号: 201710117467.8 申请日: 2017-03-01
公开(公告)号: CN106933998B 公开(公告)日: 2021-03-02
发明(设计)人: 何小成;黄三伟 申请(专利权)人: 湖南蚁坊软件股份有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33
代理公司: 山东博睿律师事务所 37238 代理人: 丁波
地址: 410000 湖南省长沙市高新开发*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 解决 apachesolr 短语 搜索 不准 方法
【说明书】:

发明公开了一种解决ApacheSolr短语搜索不准的方法;其特征在于:该方法包括如下步骤:数据接收,QParserPlugin接收客户端通过http协议传输过来的搜索语句参数;短语查找,在QParserPlugin中使用正则表达式匹配搜索语句参数中的短语,得到短语集合;数据分词和替换,通过步骤2得到的短语集合中的短语进行索引模式分词;将分好词的短语替换原始搜索语句中的短语;数据转换,通过Apache Solr的语法解析器将替换过的搜索语句转成Query;数据处理和输出,进入Apache Solr的搜索过程,完成后输出数据。本发明采用插件的方式扩展Apache Solr的语法解析器,重写其语法解析规则,解决了短语搜索不准的问题。设置了可插拔式的语法解析器扩展插件;采用索引模式对短语进行索引模式分词后再搜索。

技术领域

本发明涉及网络搜索技术领域,确切地说是一种解决ApacheSolr短语搜索不准的方法。

背景技术

Apache Solr中有一种搜索语法叫“短语搜索”既PhraseQuery;短语搜索的语法为在关键词上加上引号,搜索原理是引号内的关键词分词后距离为指定的slop参数大小;但是在建索引时文档分词的结果会比搜索时对Query分词的结果更多,故会造成索引模式与搜索模式不匹配,从而导致“短语搜索”不准确问题。

本发明提供了一种方法,在进入Apache Solr搜索操作之前,先将短语搜索语法中的关键词按照索引模式分词,然后替换原始的的短语搜索语句,最后进入搜索操作。

发明内容

本发明要解决的技术问题是Apache Solr在短语搜索时,因索引模式与搜索模式分词结果不一致从而导致搜索不准确的问题。

为解决上述技术问题,本发明采用如下技术手段:

一种解决ApacheSolr短语搜索不准的方法;其特征在于:该方法包括如下步骤:

步骤1:数据接收,QParserPlugin接收客户端通过http协议传输过来的搜索语句参数;

步骤2:短语查找,在QParserPlugin中使用正则表达式匹配搜索语句参数中的短语,得到短语集合;

步骤3:数据分词和替换,通过步骤2得到的短语集合中的短语进行索引模式分词;将分好词的短语替换原始搜索语句中的短语;

步骤4:数据转换,通过Apache Solr的语法解析器将替换过的搜索语句转成Query;

步骤5:数据处理和输出,进入Apache Solr的搜索过程,完成后输出数据。

作为优选,本发明更进一步的技术方案是:

所述的短语查找,在parse方法中首先调用getString方法得到搜索语句,然后使用匹配“加引号语句”的正则表达式去匹配搜索语句中的“短语搜索语句”。

所述的数据分词和替换,调用分词器按索引模式对匹配出来的短语分词,最后将分词后的语句替换原始的搜索语句。

所述的数据转换Apache Solr的语法解析器,编写AntfactQParserPlugin类,且继承Apache Solr的QParserPlugin并重写createParser方法,返回值为AntfactQParser类型。

所述的数据转换Apache Solr的语法解析器最后转换数据为solrconfig.xml配置文件中配置queryParser,class为AntfactQParserPlugin;这样可以动态灵活的配置自定义的queryParser。

本发明采用插件的方式扩展Apache Solr的语法解析器,重写其语法解析规则,解决了短语搜索不准的问题。设置了可插拔式的语法解析器扩展插件;采用索引模式对短语进行索引模式分词后再搜索。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件股份有限公司,未经湖南蚁坊软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710117467.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top