[发明专利]一种面向特定行业结构化业务数据的全文检索方法及系统在审

申请号：	201910558557.X	申请日：	2019-06-26
公开（公告）号：	CN110297829A	公开（公告）日：	2019-10-01
发明（设计）人：	涂腾飞;张进;余伟	申请（专利权）人：	重庆紫光华山智安科技有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/2455;G06F16/27
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	尹丽云
地址：	400700 重庆市***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	全文检索业务数据库业务数据倒排索引行业结构关系型数据库抽取数据方式查询数据建立专业词汇结构化中结构转换字段抽取检索文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向特定行业结构化业务数据的全文检索方法，该全文检索方法包括：从业务数据库抽取数据到临时表中；将从所述业务数据库中抽取的数据进行转换；为已转换的数据建立倒排索引；将输入的文本进行全文检索。本发明解决了业务数据库中特殊编号，专业词汇等字段在全文检索时分词不准确的问题，使全文检索在结构化业务数据中也能取得理想的结果。基于倒排索引的特点，本发明检索速度明显快于关系型数据库中结构化数据以SQL方式查询的速度。

技术领域

本发明属于信息检索领域，具体涉及一种面向特定行业(如公安、交通、教育等)结构化业务数据的全文检索方法及系统。

背景技术

随着大数据，人工智能等技术的蓬勃发展以及存储成本的降低，人们越来关注对于数据的收集利用，以开拓新的业务领域，促进生产和发展。面对庞大的数据，如何进行数据的检索，是一项至关重要的课题。目前已有的检索方式主要有两种，一种是基于结构化数据采用SQL语句进行的精确查询，另一种是基于文本分词后建立倒排索引的全文检索。在全文检索领域，最具代表性的工具是Elasticsearch和Solr。

在使用SQL进行精确查询时，开发人员需要为每个字段配置SQL语句和业务逻辑，用户在使用过程中，需要将数据准确录入查找的字段，逐步筛选，才能呈现出需要的结果，这样的操作方式对于用户并不友好。全文检索的出现缓解了这一问题，利用分词器将数据拆分，把拆分的词语作为索引存储相应的字段，再对用户输入的文本进行分词，计算出与字段的相关性分数，依据分数高低呈现结果，这样一种方式极大的提高了查询效率。但全文检索也有其利弊，其检索的准确性很大程度上依赖于分词结果的好坏，在对特定行业数据进行检索时，有很多字段无法进行分词，如车牌、设备ID、手机号码等编号类型的数据，状态枚举、行业术语等专有词汇。在这样的情况下，要为业务数据建立全文检索引擎不仅要为每张表配置专用词典，还需要随着数据变化不断更新词典，给系统的建设维护带来诸多不便。

发明内容

鉴于以上所述现有技术的缺点，本发明提供一种面向特定行业结构化业务数据的全文检索方法及系统，在不需要更新分词词典的前提下，实现对结构化的业务数据的一键全文检索,能有效提升数据的搜索效率。

为实现上述目的及其他相关目的，本发明提供一种面向特定行业结构化业务数据的全文检索方法，该全文检索方法包括：

从业务数据库抽取数据到临时表中；

将从所述业务数据库中抽取的数据进行转换；

为已转换的数据建立倒排索引；

将输入的文本进行全文检索。

可选地，若抽取的数据为OLAP数据，则采用增量抽取的方式从所述业务数据库中抽取数据；若抽取的数据为OLTP数据，则采用全量抽取的方式从所述OLTP数据库中抽取数据。

可选地，若抽取的数据为OLAP数据，该全文检索方法还包括去重步骤，具体为：删除所述临时表中的重复数据。

可选地，该全文检索方法还包括：

将存储的数据同步至业务数据库中。

可选地，所述为已转换的数据建立倒排索引，具体包括：