[发明专利]一种面向特定行业结构化业务数据的全文检索方法及系统在审
申请号: | 201910558557.X | 申请日: | 2019-06-26 |
公开(公告)号: | CN110297829A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 涂腾飞;张进;余伟 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/27 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文检索 业务数据库 业务数据 倒排索引 行业结构 关系型数据库 抽取数据 方式查询 数据建立 专业词汇 结构化 中结构 转换 字段 抽取 检索 文本 | ||
1.一种面向特定行业结构化业务数据的全文检索方法,其特征在于,该全文检索方法包括:
从数据库抽取数据到临时表中;
将从所述数据库中抽取的数据进行转换;
为已转换的数据建立倒排索引;
将输入的文本进行全文检索。
2.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索方法,其特征在于,若抽取的数据为OLAP数据,则采用增量抽取的方式从所述OLAP数据库中抽取数据;若抽取的数据为OLTP数据,则采用全量抽取的方式从所述OLTP数据库中抽取数据。
3.根据权利要求2所述的一种面向特定行业结构化业务数据的全文检索方法,其特征在于,若抽取的数据为OLAP数据,该全文检索方法还包括去重步骤,具体为:删除所述临时表中的重复数据。
4.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索方法,其特征在于,该全文检索方法还包括:
将存储的数据同步至业务数据库中。
5.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索方法,其特征在于,所述为已转换的数据建立倒排索引,具体包括:
将需要检索的字段拼接成为一个大的检索字段;
以分词器和指定分隔符对检索字段进行切词;
建立对应的索引。
6.一种面向特定行业结构化业务数据的全文检索系统,其特征在于,该全文检索系统包括:
数据抽取模块,用于从数据库抽取数据到临时表中;
数据转换模块,用于将从所述数据库中抽取的数据进行转换;
索引建立模块,用于为已转换的数据建立倒排索引;
检索模块,用于将输入的文本进行全文检索。
7.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索系统,其特征在于,若抽取的数据为OLAP数据,则采用增量抽取的方式从所述OLAP数据库中抽取数据;若抽取的数据为OLTP数据,则采用全量抽取的方式从所述OLTP数据库中抽取数据。
8.根据权利要求2所述的一种面向特定行业结构化业务数据的全文检索系统,其特征在于,若数据抽取模块抽取的数据为OLAP数据,则该全文检索系统还包括去重模块,用于删除所述临时表中的重复数据。
9.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索系统,其特征在于,该全文检索系统还包括同步模块,用于将存储的数据同步至业务数据库中。
10.根据权利要求1所述的一种面向特定行业结构化业务数据的全文检索系统,其特征在于,所述索引建立模块包括:
拼接子模块,用于将需要检索的字段拼接成为一个大的检索字段;
切词子模块,用于以分词器和指定分隔符对检索字段进行切词;
索引建立子模块,用于建立对应的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910558557.X/1.html,转载请声明来源钻瓜专利网。