[发明专利]一种企业数据库系统合标性评价方法在审
申请号: | 202310448064.7 | 申请日: | 2023-04-24 |
公开(公告)号: | CN116414719A | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 林劼;曾祥雨;胡飘;梁玉龙;白毅 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/21;G06F16/36;G06F18/22;G06N3/042;G06N3/0442;G06N3/048;G06N5/022 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 郭肖凌 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 数据库 系统 合标性 评价 方法 | ||
本发明公开了一种企业数据库系统合标性评价方法,包括:1.根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;2.分别基于数据标准文档关系集和数据库系统关系集提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;3.将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐;4.基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;5.定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。具有较好的准确性和全面性,有效地降低了时间成本和人力成本。
技术领域
本发明涉及数据库领域,具体为一种企业数据库系统合标性评价方法。
背景技术
随着互联网和信息技术的发展,企业数据呈海量式增长,并呈现多源异构的特征。企业数据描述源以数据标准文档和数据库系统为主。在企业数据库系统构建和不断迭代更新过程中,可能已出现数据标准文档和数据库系统不匹配的情况,如数据库系统实际构建和迭代更新时所删除的不再具有业务应用需求的部分业务字段,未及时在数据标准文档中予以同步。又或数据库系统为适应具体应用场景更新而新增加的业务字段,以及基于项目实际应用场景所进行的使用性优化如字段冗余设计等,且未及时同步至数据标准文档中,都会造成二者的不匹配问题。鉴于数据标准文档中记录的数据字段,不同业务人员在数据库中的具体实现时可能采用了不同的命名形式,也给不同数据描述源中数据字段的匹配参照,以及异常业务字段的获取造成了较大障碍。因此针对企业,如何进行高效全面的企业数据库系统合标性评价,通过系统合标性评价来把握数据标准文档和数据库系统的匹配度成为一项重要的问题。
企业数据库系统合标性评价方法,目前的方法集中在以下几个方面:(1)基于人工对齐的方法:这种方法相对来说最为准确,但需要耗费大量人力和时间成本,且随着信息化时代下数据的爆炸式增长,更是难以商业化。(2)基于深度学习的方法:基于深度学习的信息获取,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明提供一种企业数据库系统合标性评价方法,包括:关系集定义,知识图谱构建,实体对齐,异常业务字段筛选,系统合标性评价;所述关系集定义,根据企业的不同数据描述源进行对应关系集的定义,分别建立数据标准文档关系集和数据库系统关系集,对业务字段间的关系进行定义和表示;所述知识图谱构建,基于定义的关系集,分别基于数据标准文档和数据库系统提取对应的三元组,并分别构建数据标准文档知识图谱和数据库系统知识图谱;所述实体对齐,将企业数据标准文档知识图谱和数据库系统知识图谱进行图谱对齐,即实体对齐;所述异常业务字段筛选,基于图谱实体对齐结果,结合训练过程中实体相似度衡量,筛选出异常业务字段;所述系统合标性评价,定义企业数据库系统合标性评价指标,并基于实体对齐结果及异常业务字段筛选结果,计算系统合标性评价。
进一步地,所述实体对齐包括以下子步骤:S31.定义数据标准文档知识图谱G1=(E1,R1,T1)和数据库系统知识图谱G2=(E2,R2,T2),其中,E表示实体、R表示关系、T表示知识图谱的三元组;S32.神经网络设计,针对企业数据描述源中的多类关系,将其视为不同视图,并采用共有视图嵌入和特有视图嵌入来共同得到实体的最终表示;S33.基于两个知识图谱实体间的距离进行实体对齐。
进一步地,所述共有视图嵌入采用GCN,并结合高速门控机制,来提取不区分关系类型下的实体全局结构信息,作为共有视图特征,其中节点vi的特征更新计算过程为:H(l+1)=T(H(l))·H(l+1)+(1-T(H(l)))·H(l),其中,H(l)为GCN第l层的输出,作为第l+1层的输入,σ为sigmoid激活函数,)WT(l)、bT(l)分别为转换门T(H(l))的权重矩阵和偏差向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310448064.7/2.html,转载请声明来源钻瓜专利网。