[发明专利]一种基于知识图谱的数据管理方法、系统、设备及介质在审
申请号: | 202011518155.6 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112685405A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 陈翔 | 申请(专利权)人: | 福建新大陆软件工程有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/23;G06F16/25;G06F16/27;G06F16/28 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 范小清 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 数据管理 方法 系统 设备 介质 | ||
本发明提供了大数据技术领域的一种基于知识图谱的数据管理方法、系统、设备及介质,方法包括如下步骤:步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;步骤S40、基于所述知识图谱对大数据进行管理。本发明的优点在于:极大的提升了数据管理的质量。
技术领域
本发明涉及大数据技术领域,特别指一种基于知识图谱的数据管理方法、系统、设备及介质。
背景技术
随着大数据分析服务能力的不断提升,推动着企业经营分析、应用方式和架构的转变,以动态化、可视化、关联分析为核心的业务分析场景逐步成为主要手段。因此,产生了对大数据的数据指标进行管理的需求。
针对数据指标的管理,传统上仅仅停留在指标规范定义的层面,未对指标关系、指标口径进行管理,即只管理到数据指标的定义,导致存在如下缺点:容易出现指标口径不统一、同名不同义、同义不同名的情况,当数据指标的口径变更后,应用调整的工作量巨大,或出现真正落地的口径未发生变化,频发表里不一的情况。
因此,如何提供一种基于知识图谱的数据管理方法、系统、设备及介质,实现提升数据管理的质量,成为一个亟待解决的问题。
发明内容
本发明要解决的技术问题,在于提供一种基于知识图谱的数据管理方法、系统、设备及介质,实现提升数据管理的质量。
第一方面,本发明提供了一种基于知识图谱的数据管理方法,包括如下步骤:
步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;
步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
步骤S40、基于所述知识图谱对大数据进行管理。
进一步地,所述步骤S10具体为:
服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
进一步地,所述步骤S20具体为:
服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
进一步地,所述步骤S30具体为:
服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
第二方面,本发明提供了一种基于知识图谱的数据管理系统,包括如下模块:
关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
大数据预处理模块,用于服务器获取待管理的大数据,并对所述大数据进行预处理;
知识图谱生成模块,用于服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
大数据管理模块,用于基于所述知识图谱对大数据进行管理。
进一步地,所述关联关系解析模块具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建新大陆软件工程有限公司,未经福建新大陆软件工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011518155.6/2.html,转载请声明来源钻瓜专利网。