[发明专利]数据标准化方法及装置有效
申请号: | 201910304451.7 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110008193B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 刘俊良;廖华琛;王怡君;王双 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/176 | 分类号: | G06F16/176;G06F16/178;G06F16/25 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐丽 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 标准化 方法 装置 | ||
本申请提供一种数据标准化方法及装置,将业务数据库的元数据依次同多个标准数据库的元数据进行比较,找出相同的元数据,并标识为相似元数据。针对业务数据库中与该标准数据库之间不同的差异元数据。计算该差异元数据对应的数据与该业务数据库中预存的样本数据之间的相似度。将数据相似度大于预设阈值的样本数据对应的元数据在行业标准库标识为相似元数据。统计该行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为业务数据库最接近的行业标准库。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据标准化方法及装置。
背景技术
随着信息技术的普及和发展,政府及企业的信息化程度越来越高,进而导致业务数据量也进一步加大。面对大量的业务数据,有效并快速地建立准确和规范的数据模型已成为趋势。但面对大量的行业标准,通过人工识别方式建立实际业务数据同已有标准之间的关系会花费大量的时间及精力。
发明内容
为了克服现有技术中的至少一个不足,本申请的目的之一在于提供一种数据标准化方法,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据;所述方法包括:
获取业务数据库;
针对每个所述行业标准库,将所述行业标准库的元数据与所述业务数据库的元数据进行比对;
将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据;
针对所述业务数据库中与所述行业标准库之间不同的差异元数据,计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度,将数据相似度超过预设阈值的样本数据所对应的元数据在所述行业标准库中标识为相似元数据;
统计各个所述行业标准库中被标识为所述相似元数据的元数据的数量,将所述数量最多的行业标准库确定为所述业务数据库最接近的行业标准库。
可选地,所述计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度的步骤包括:
通过人工神经网络计算所述差异元数据对应的数据与所述行业标准库中的样本数据之间的相似度。
可选地,所述方法还包括:
根据所述最接近的行业标准库中的相似元数据创建标准信息数据库;
从所述业务数据库获取与所述最接近的行业标准库中的相似元数据对应的数据,存入所述标准信息数据库。
可选地,所述数据处理设备还包括行业共享信息库,所述方法还包括:
将所述行业共享信息库的元数据和所述标准信息数据库的元数据进行比较,确定出所述标准信息数据库中与所述行业共享信息库中的相同的共享元数据;
根据所述共享元数据对应的数据创建共享数据表。
可选地,所述方法还包括:
针对每个所述共享数据表,提供相应的接口,使得其他设备通过该接口获取所述共享数据表中的数据。
可选地,所述元数据包括字段名称,所述将所述行业标准库中与所述业务数据库相同的元数据标识为相似元数据的步骤包括:
将所述行业标准库中与所述业务数据库相同的字段名称标识为相似元数据。
可选地,所述元数据还包括表名称、字段类型和字段长度。
本申请实施例的另一目的在于提供一种数据标准化装置,应用于数据处理设备,所述数据处理设备预存有多个行业标准库,所述行业标准库预存有样本数据,所述数据标准化装置包括获取模块、比较模块、标识模块、相似度计算模块和统计模块;
所述获取模块用于获取业务数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910304451.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置