[发明专利]一种面向特定行业结构化业务数据的全文检索方法及系统在审
申请号: | 201910558557.X | 申请日: | 2019-06-26 |
公开(公告)号: | CN110297829A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 涂腾飞;张进;余伟 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/27 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文检索 业务数据库 业务数据 倒排索引 行业结构 关系型数据库 抽取数据 方式查询 数据建立 专业词汇 结构化 中结构 转换 字段 抽取 检索 文本 | ||
本发明公开了一种面向特定行业结构化业务数据的全文检索方法,该全文检索方法包括:从业务数据库抽取数据到临时表中;将从所述业务数据库中抽取的数据进行转换;为已转换的数据建立倒排索引;将输入的文本进行全文检索。本发明解决了业务数据库中特殊编号,专业词汇等字段在全文检索时分词不准确的问题,使全文检索在结构化业务数据中也能取得理想的结果。基于倒排索引的特点,本发明检索速度明显快于关系型数据库中结构化数据以SQL方式查询的速度。
技术领域
本发明属于信息检索领域,具体涉及一种面向特定行业(如公安、交通、教育等)结构化业务数据的全文检索方法及系统。
背景技术
随着大数据,人工智能等技术的蓬勃发展以及存储成本的降低,人们越来关注对于数据的收集利用,以开拓新的业务领域,促进生产和发展。面对庞大的数据,如何进行数据的检索,是一项至关重要的课题。目前已有的检索方式主要有两种,一种是基于结构化数据采用SQL语句进行的精确查询,另一种是基于文本分词后建立倒排索引的全文检索。在全文检索领域,最具代表性的工具是Elasticsearch和Solr。
在使用SQL进行精确查询时,开发人员需要为每个字段配置SQL语句和业务逻辑,用户在使用过程中,需要将数据准确录入查找的字段,逐步筛选,才能呈现出需要的结果,这样的操作方式对于用户并不友好。全文检索的出现缓解了这一问题,利用分词器将数据拆分,把拆分的词语作为索引存储相应的字段,再对用户输入的文本进行分词,计算出与字段的相关性分数,依据分数高低呈现结果,这样一种方式极大的提高了查询效率。但全文检索也有其利弊,其检索的准确性很大程度上依赖于分词结果的好坏,在对特定行业数据进行检索时,有很多字段无法进行分词,如车牌、设备ID、手机号码等编号类型的数据,状态枚举、行业术语等专有词汇。在这样的情况下,要为业务数据建立全文检索引擎不仅要为每张表配置专用词典,还需要随着数据变化不断更新词典,给系统的建设维护带来诸多不便。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种面向特定行业结构化业务数据的全文检索方法及系统,在不需要更新分词词典的前提下,实现对结构化的业务数据的一键全文检索,能有效提升数据的搜索效率。
为实现上述目的及其他相关目的,本发明提供一种面向特定行业结构化业务数据的全文检索方法,该全文检索方法包括:
从业务数据库抽取数据到临时表中;
将从所述业务数据库中抽取的数据进行转换;
为已转换的数据建立倒排索引;
将输入的文本进行全文检索。
可选地,若抽取的数据为OLAP数据,则采用增量抽取的方式从所述业务数据库中抽取数据;若抽取的数据为OLTP数据,则采用全量抽取的方式从所述OLTP数据库中抽取数据。
可选地,若抽取的数据为OLAP数据,该全文检索方法还包括去重步骤,具体为:删除所述临时表中的重复数据。
可选地,该全文检索方法还包括:
将存储的数据同步至业务数据库中。
可选地,所述为已转换的数据建立倒排索引,具体包括:
将需要检索的字段拼接成为一个大的检索字段;
以分词器和指定分隔符对检索字段进行切词;
建立对应的索引。
为实现上述目的及其他相关目的,本发明还提供一种面向特定行业结构化业务数据的全文检索系统,该全文检索系统包括:
数据抽取模块,用于从数据库抽取数据到临时表中;
数据转换模块,用于将从所述数据库中抽取的数据进行转换;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910558557.X/2.html,转载请声明来源钻瓜专利网。