[发明专利]一种字段匹配的方法、装置、计算机存储介质及终端在审

申请号：	201811631758.X	申请日：	2018-12-29
公开（公告）号：	CN109783611A	公开（公告）日：	2019-05-21
发明（设计）人：	堵新政;张毅然	申请（专利权）人：	北京明略软件系统有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F17/22
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	王康;栗若木
地址：	102218 北京市昌平区东小***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字段特征向量原始表字段匹配标准表计算机存储介质终端匹配准确度映射关系字段映射相似度映射匹配
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种字段匹配的方法、装置、计算机存储介质及终端，包括：确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。

技术领域

本文涉及但不限于数据处理技术，尤指一种字段匹配的方法、装置、计算机存储介质及终端。

背景技术

如何有效地保证数据的完整性，实现数据的规范化、标准化，提高数据质量和治理效率，对当今的数据治理任务来说至关重要。数据治理的源数据可以包括不同种类、系统的数据。其中，关系型数据库的源数据可能存在几百甚至上千张表，每张表可能有几十到上百的字段。在源数据提取前，建立大量的原始字段与目标字段间的一一映射是一件很繁琐的工作。通常，在数据抽取过程中，原始字段到目标字段的匹配有三种方式：第一种方式，是直接人工定义目标字段，建立原始字段与目标字段的映射关系；第二种方式是基于提前构建好的标准字段库，在字段映射阶段，从标准字段库查找对应的原始字段，如果存在则建立映射，如果不存在，则需要人工创建目标字段，建立映射关系。

上述原始字段与目标字段的匹配方式中：第一种方式准确度灵活性高，但效率低下，对于大量表的情况并不是适用，并且手动建立的字段在命令上并不是规范的；第二种方式属于半自动匹配，效率比第一种有所提高，但还是需要人工创建映射字段，对于表多的情况，效率依然很低。

目前，如何在建立原始字段与目标字段之间的映射关系时，提高原始表全字段的匹配准确度和效率，是技术人员需要面对的问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种字段匹配的方法、装置、计算机存储介质及终端，能够提高原始表全字段的匹配准确度和效率。

本发明实施例提供了一种字段匹配的方法，包括：

确定原始表的第一特征向量，和待匹配的各第一标准表的第二特征向量；

根据确定的第一特征向量和各第二特征向量，确定与原始表成映射关系的第二标准表；

建立原始表的原始字段与确定的第二标准表的标准字段的字段映射；

根据建立映射的原始字段与标准字段的字段相似度，确定用于字段匹配的目标字段。

可选的，确定待匹配的各第一标准表的第二特征向量之前，所述方法还包括：

按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类；