[发明专利]一种自动生成数据库表间关联关系的方法、系统、电子设备及程序产品在审
申请号: | 202211490525.9 | 申请日: | 2022-11-25 |
公开(公告)号: | CN115757660A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 袁超;黄刚;杨云鹏;梅昊;王祖艳 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/2455;G06F16/215;G06F16/26 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400023 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 数据库 关联 关系 方法 系统 电子设备 程序 产品 | ||
本发明提出一种自动生成数据库表间关联关系的方法、系统、设备及程序产品,通过模型算法对数据库表进行关联关系分析,首先基于数据表字段类型识别,其次对每一表取合适时间维度,对数据进行切片抽取,然后按照字段的类别属性对抽取的数据表的字段按照相似字段进行关联连接,如果连接的成功率在一定阈值则代表两表具有关联关系,最终得到数据库表的表间关联关系E‑R图。本发明是基于数据表字段属性,对相似属性且具有关联意义的字段进行尝试连接,不必依赖于数据表是事实表还是维度表这一属性,也不依赖于数据表相关的历史SQL语句,可实现所有表所有字段的关联关系判断,防止表与表之前关联关系的遗漏。
技术领域
本发明涉及数据库分析、数据库表处理的技术领域,尤其涉及分析数据库表表间关联关系,并生成E-R图的方法及系统装置。
背景技术
近年来各行各业的业务在快速发展过程中,积累了海量的客户数据、交易数据、外部数据等数据资产。数据已经成为企业的重要资产和核心竞争力,充分发挥数据价值,用数据驱动企业发展,具有重要意义。同时在城市化和创新技术发展的双重驱动下,企业的数字化转型需求应运而生,企业需要开始系统化的思考如何促进数据要素在公司生产流程中的高效流通,从而发挥出数据的乘数甚至倍增作用。但很多传统行业在发展过程的早初期,更多的关注业务发展而忽略了系统上的技术发展,相关数据存储条件有限,造成数据存储不完整等数据管理混乱的历史遗留问题。遗留系统的维护工作,特别是遗留数据库的维护工作量逐渐增大,由于遗留系统年限较长,又缺乏完整清晰的文档,使得系统维护人员难以理解数据库的设计,从而不能准确把握数据库表之间的各种关联关系。在海量的数据资产中,如要对数据进行价值分析和挖掘,我们需要知道数据库的表间关系。因此,在此过程中,打破传统数据管理模式,引入科技或创新手段进行数据治理与分析挖掘势在必行。
传统技术方案中,主要依靠人工判断识别、编制PDM文件、梳理历史执行语句的方式来获取数据库表的表间关联关系。传统技术对人工依赖较为严重,如果出现人员对数据库结构不熟悉、数据库关系不了解,缺少历史执行语句等情况,建立表间关联关系难度大,效率低。尤其在表数量较多,关系复杂的时候,需要投入较多的人工进行判断,即使这样仍然存在关联错误、不能穷举或不能全面覆盖等问题。因此,研究一套数据库表间的关联关系重构的方法对数据治理、数据分析与数据挖掘有着至关重要的意义。即,当存在海量的归集数据时,通过寻找表与表之间的关联关系,能直观体现数据之间的业务关联,非常有利于数据的使用和价值的挖掘。
发明内容
为解决上述问题,本发明提出一种自动生成数据库表间关联关系的方法、系统、设备及程序产品,通过模型算法对数据库表进行关联关系分析,最终得到数据库表的表间关联关系E-R图,有利于所有数据库管理人员、运维人员对数据库数据的管理,并且为数据治理、数据挖掘以及数据分析奠定良好的基础。
本发明的技术方案如下:
在第一方面,本发明提供一种自动生成数据库表间关联关系的方法,通过数据库表间连接算法自动梳理数据库表间关联关系,包括如下步骤:
S101,梳理所有数据库表名称,作为关联关系分析的对象。
S102,对每张所述数据库表随机抽取设定量样本数据存储在本地服务器,用于进行数据库表字段属性识别算法开发。
S103,数据库表字段属性识别:
采用数据库表字段类型识别算法对数据库表字段属性进行识别判断,识别出的数据类型包括ID型、类别型、排序型、数值型、字符型、日期-时间型。
可选的,数据库表字段类型识别算法可以是基于LightGBM算法开发,具体包括:
(1)对数据表字段属性进行人工标注,形成标签,用于LightGBM模型训练。
(2)对所述的本地数据进行预处理,包括但不限于删除空值,异常值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211490525.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高精度地图的红绿灯构建方法
- 下一篇:头像展示方法及装置