[发明专利]一种字段匹配的方法、装置、计算机存储介质及终端在审
申请号: | 201811631758.X | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783611A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 堵新政;张毅然 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 特征向量 原始表 字段匹配 标准表 计算机存储介质 终端 匹配准确度 映射关系 字段映射 相似度 映射 匹配 | ||
一种字段匹配的方法、装置、计算机存储介质及终端,包括:确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。本发明实施例提高了原始表全字段的匹配准确度和效率。
技术领域
本文涉及但不限于数据处理技术,尤指一种字段匹配的方法、装置、计算机存储介质及终端。
背景技术
如何有效地保证数据的完整性,实现数据的规范化、标准化,提高数据质量和治理效率,对当今的数据治理任务来说至关重要。数据治理的源数据可以包括不同种类、系统的数据。其中,关系型数据库的源数据可能存在几百甚至上千张表,每张表可能有几十到上百的字段。在源数据提取前,建立大量的原始字段与目标字段间的一一映射是一件很繁琐的工作。通常,在数据抽取过程中,原始字段到目标字段的匹配有三种方式:第一种方式,是直接人工定义目标字段,建立原始字段与目标字段的映射关系;第二种方式是基于提前构建好的标准字段库,在字段映射阶段,从标准字段库查找对应的原始字段,如果存在则建立映射,如果不存在,则需要人工创建目标字段,建立映射关系。
上述原始字段与目标字段的匹配方式中:第一种方式准确度灵活性高,但效率低下,对于大量表的情况并不是适用,并且手动建立的字段在命令上并不是规范的;第二种方式属于半自动匹配,效率比第一种有所提高,但还是需要人工创建映射字段,对于表多的情况,效率依然很低。
目前,如何在建立原始字段与目标字段之间的映射关系时,提高原始表全字段的匹配准确度和效率,是技术人员需要面对的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种字段匹配的方法、装置、计算机存储介质及终端,能够提高原始表全字段的匹配准确度和效率。
本发明实施例提供了一种字段匹配的方法,包括:
确定原始表的第一特征向量,和待匹配的各第一标准表的第二特征向量;
根据确定的第一特征向量和各第二特征向量,确定与原始表成映射关系的第二标准表;
建立原始表的原始字段与确定的第二标准表的标准字段的字段映射;
根据建立映射的原始字段与标准字段的字段相似度,确定用于字段匹配的目标字段。
可选的,确定待匹配的各第一标准表的第二特征向量之前,所述方法还包括:
按照预设的分类策略将标准库中包含的所有标准表划分为预设个种类;
将与原始表相同种类的标准表,确定为待匹配的所述第一标准表。
可选的,所述确定原始表的第一特征向量包括:
对所述原始表的中文表名进行分词,获得第一关键词;
根据分词获得的第一关键词构建第一词库;
对第一词库中的第一关键词进行预处理后,通过词频统计确定所述第一特征向量;
其中,所述预处理包括:去除重复词、和/或去除停用词。
可选的,所述确定待匹配的各第一标准表的第二特征向量包括:
对各所述第一标准表的对中文表名进行分词,获得对应于各第一标准表的第二关键词;
根据分词获得的所有所述第二关键词构建第二词库;
对第二词库中的第二关键词进行预处理后,通过词频统计确定各所述第一标准表的所述第二特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811631758.X/2.html,转载请声明来源钻瓜专利网。