[发明专利]一种基于Lucene的支持表达式的自定义相关度排序算法有效
申请号: | 201710390490.4 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107220347B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 苏沐冉;吴震;毛洪亮;唐积强;王秀文;马秀娟;徐小磊;张露晨;李焱余;李传海;李斌斌;孟宪文;谢铭 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京赛思信安技术股份有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/33 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 支持 表达式 自定义 相关 排序 算法 | ||
本发明公开了一种基于Lucene的支持表达式的自定义相关度排序算法,属于计算机技术领域。所述算法包括:用表达式解析模块对用户输入的表达式进行合法性检查,并转化为系统可以计算的形式;表达式计算模块根据表达式中的参数,在Lucene索引中提取出相应字段进行计算;相关度排序模块对表达式的计算结果进行排序;最后用结果整合模块对各数据节点返回的计算结果进行整合,将最终自定义表达式的排序结果返回给用户。本发明支持多字段间进行表达式计算,并按照其进行排序,优于单纯的文档打分排序机制,而且该发明支持更多的函数计算,且该算法适用于分布式的大数据平台上。
技术领域
本发明属于计算机技术领域,具体是一种基于Lucene的支持表达式的自定义相关度排序算法。
背景技术
目前,从海量信息中获取有用信息的关键技术是信息检索,信息检索的核心问题就是预测文档的相关度,并按照相关度对各文档进行排序。一般而言,排在最顶端的文档被认为最相关;因此,相关度的计算和排序算法就成为信息检索的核心。
典型的检索系统的排序技术主要有词频统计和词位置加权排序算法、基于用户反馈的Direct Hit算法、PageRank超链接分析排序算法和Hits排序算法。这些典型的相关度排序算法主要基于全文本分词或其在网络中的关注程度来对文档进行排序,适用于普遍的全文本搜索,不能满足用户特定的需求。
随着数据的爆炸式增长,大数据系统往往根据数据本身的特征,分为不同的字段进行存储,所以在文档检索排序时,单单使用全文本相关度排序已不能得到用户想要的结果,必须考虑更多的因素(即字段)进行排序,并应该为用户提供更为多样灵活的相关度排序算法。
发明内容
本发明为了解决现有传统大数据系统字段间运算支持的函数种类缺乏多样性,字段间运算和自定义排序缺乏灵活性的问题,提供了一种基于Lucene的支持表达式的自定义相关度排序算法。
具体步骤如下:
步骤一、搭建算法运行所需的分布式环境,包括若干数据节点,一个管理节点和一个元数据节点;
数据节点存储各字段的数据,底层采用Lucene索引作为存储引擎;管理节点对数据存储和查询过程中的任务进行管理;元数据节点存储各数据节点的数据分布情况和各字段的类型等信息。
步骤二、对用户发送的某个文档或者文章,将内容划分为不同字段,并构造表达式作为相关度排序请求;
用户将文档或者文章中的不同内容存储到不同的字段中,在进行全文检索时,不同的字段作为不同的参数,构造不同内容的表达式作为相关度排序请求;每个文档的相关度排序请求为一个或者多个。
步骤三、针对某个相关度排序请求,管理节点进行解析后同时发送给不同数据节点,每个数据节点分别获取该请求的字段信息;
字段信息包括该字段的数据类型和字段名;文本类型的字段还包括该字段存储时所采用分词器。
管理节点解析该相关度排序请求,具体为:判断表达式是否合法,如果合法,将表达式和作为参数的字段名发送到各数据节点;否则,提示错误,结束。
表达式包括运算符表达式和函数表达式,针对运算符表达式,首先,判断运算符中操作数的个数是否合法,然后,将非数学数字的操作数作为未知参数,进行预运算,如果预运算通过,则该运算符表达式合法;
针对函数表达式,根据函数对照表,匹配函数表达式的函数名跟对照表中的函数名是否一致,且该函数表达式的所有字段名参数与元数据节点中的元数据表中的字段名称一一对比,如果全部对应,则该函数表达式合法。
步骤四、每个数据节点根据字段信息的不同字段名参数,在各自的数据节点中查询对应的不同字段数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京赛思信安技术股份有限公司,未经国家计算机网络与信息安全管理中心;北京赛思信安技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710390490.4/2.html,转载请声明来源钻瓜专利网。