[发明专利]一种基于NLP算法实现数据资产精准搜索方法有效

专利信息
申请号: 202210275470.3 申请日: 2022-03-21
公开(公告)号: CN115080602B 公开(公告)日: 2023-05-26
发明(设计)人: 于洋;高经郡;谢晋 申请(专利权)人: 北京科杰科技有限公司
主分类号: G06F16/2452 分类号: G06F16/2452;G06F16/2453;G06F16/2455;G06F16/248;G06F16/242;G06F16/22;G06F16/28
代理公司: 北京智行阳光知识产权代理事务所(普通合伙) 11738 代理人: 黄锦阳
地址: 100102 北京市朝阳区阜*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 nlp 算法 实现 数据 资产 精准 搜索 方法
【说明书】:

发明公开了一种基于NLP算法实现数据资产精准搜索方法,对数据资产的自然语言进行检索,将数据作为一种资产,进行关系的自动维护、模型生成、智能检索等。针对大数据产生的资产目录和资产目录中的字段血缘关系、标签、指标等都有高效的检索和命中率。同时对于一些查询较热的TopN数据也能有效地进行建立。使用reids缓存,快速的响应同类关键词查询的结果,大大的缩短了查询链路的长度和对关系数据库的压力。

技术领域

本发明涉及数据处理技术领域,具体涉及一种基于NLP算法实现数据资产精准搜索方法。

背景技术

在现有的数据资产搜索方法中,资产检索的种类固化到了实物资产的维护和检索,例如建筑物资的数据检索,查询链路较长,而且需要手动维护接口和调用关系。对于一些元数据资产标签和跨资产的血缘关系,现有技术无法有效的检索。另外,还存在命中率和召回率较低的问题。

发明内容

针对现有技术的不足,本发明旨在提供一种基于NLP算法实现数据资产精准搜索方法。

为了实现上述目的,本发明采用如下技术方案:

一种基于NLP算法实现数据资产精准搜索方法,具体过程为:

一、资产元数据的生成:

二、索引的构建:

(1)元数据索引的构建:

采集模块根据定时的采集任务对资产元数据进行拉取,拉取方式分为全量拉取和增量拉取,对于新增的表采用全量拉取,对于已存在的表采用增量拉取,然后对于每个字段内容均进行去空值和去数值,保留关键字,作为元数据的索引;

(2)数据的索引构建:

1)对于已存在的表,同步/构建服务进行数据的增量拉取;以码表/术语库以及访问次数最多的关键字作为关键字库,对字段进行关键字的提取;提取完成后,对所有关键字进行去重,生成字典,通过同步/构建服务写入到es,作为数据的索引;

2)对于新增的表,然后同步/构建服务进行全量拉取,以码表/术语库以及访问次数最多的关键字作为关键字库,对字段进行关键字的提取;提取完成后,对所有关键字进行去重,生成字典,通过同步/构建服务写入到es,作为数据的索引;

三、数据资产检索

NLP2SQL服务从输入入口接收到要检索的内容,然后通过映射码表后生成查询的sql语句;NLP2SQL服务通过词法分析解析自然语言,生成机器可执行的sql语句;

NLP服务检索先查找redis缓存,如果缓存中存在要检索的历史数据,缓存命中,NLP服务得到命中的数据结果返回;如果全部命中,则直接结束检索;返回的数据结果包含:资产数据所在的库、表以及关键字所在的字段的位置,字段与其它库、表中的映射血缘关系,字段与标签的映射关系,字段与指标的映射关系;如果reids缓存结果没有全部命中,还需要继续从es库中按照索引获取数据结果;如果索引未命中,表示该关键字不存在es库中,检索完毕,如果索引命中,则返回数据结果;

返回的数据结果整理后返回到NLP2SQL的前端进行列表展示;

用户在进行列表的详细信息查询时,涉及到资产数据详情的查询时需要从数据中台再次申请资产数据,按照资产数据所在的库、表、行位置使用presto对hive进行查询;查询的结果形成topN热点数据被缓存到redis中,每隔设定的时间段同步到es库中。

进一步地,步骤一的具体过程为:资产管理模块定时生成资产元数据,并产生相应的资产血缘关系、码表映射关系和标签数据;资产元数据存入资产元数据库中,资产血缘关系保存到血缘关系库中;血缘关系库、资产元数据库和码表/术语库的新增数据先缓存到redis中,redis每隔固定的时间周期将缓存的数据写入es库中,最终形成资产目录。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科杰科技有限公司,未经北京科杰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210275470.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top