[发明专利]一种数据整理的方法、装置、计算机存储介质及终端在审
申请号: | 201811634064.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109783483A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 张毅然;于阳 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始表 标准表 映射库 计算机存储介质 数据整理 预设 终端 运算量 存储 查询 中文 | ||
一种数据整理的方法、装置、计算机存储介质及终端,包括:确定预设的映射库中是否包含与需对标的原始表对应的标准表;预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库,降低了确定与原始表对标的标准表的运算量,提升了对标效率。
技术领域
本文涉及但不限于信息处理技术,尤指一种数据整理的方法、装置、计算机存储介质及终端。
背景技术
在数据整理任务中,标准化是提高原始表数据整理效率和质量的一种重要手段。通常在进行正式的数据整理之前,需要根据不同领域中制定的标准构建标准表库。比如,在公安领域,有国标、部标、省标等标准。
从原始表到标准表的整理过程通常有以下方法;第一种方法是直接人工定义目标表的字段,包括从原始表抽取相关的字段信息;第二种方法是提前构建一个标准字段库,对原始表进行数据整理的时候从标准字段库查找对应的字段,如果存在,则直接对标;如果不存在,则需要手工新建字段;第三种方法是提前构建标准表库和标准字段库,通过相似度算法寻找与原始表最相似的标准表,进而进行表的对标。
上述方法中,第一种方法精度高但效率低下;第二种方法只考虑标准字段并未考虑标准表,而特定领域的数据整理任务都是具有相应的标准的,如公安领域;第三种方法中,如何快速精准地找到标准库中与之对应的标准表,成为影响标准化过程的效率和质量的关键;一般的,基于获得的原始表的原始表名(包括中文名、英文名,由于表英文名不具备统一的命名规范,只用表中文名进行对标),计算原始表名与目标表库中每个标准表的标准表名的相似度。对所有标准表,按照标准表名与原始表名的相似度值,进行从高到低排序,取标准表名与原始表名相似度值最大的标准表作为原始表的标准表。基于这种方法,每个原始表都需要重复计算其原始表名与所有标准表的标准表名相似度,使得整个数据整理过程的效率受制于原始表、标准表库的规模,以及相似度算法的复杂度,影响了数据整理的效率。例如,来源于A的“人口信息表”已经计算出对标于标准表库中的标准表“人口登记信息表”,而来源于B的“人口信息表”可能与A的“人口信息表”具有相同或者极为相似的字段列表,但是仍然需要重新计算该原始表与所有标准表的相似度,造成大量计算资源的浪费,影响数据整理的效率。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种数据整理的方法、装置、计算机存储介质及终端,能够降低确定对标于原始表的标准表的计算量,提升数据整理效率。
本发明实施例提供了一种数据整理的方法,包括:
确定预设的映射库中是否包含与需对标的原始表对应的标准表;
预设的映射库中未包含与需对标的原始表对应的标准表时,根据中文表名确定对应于需对标的原始表的标准表;
其中,所述映射库中存储有:在前确定的原始表及对应于原始表的标准表。
可选的,所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括:
查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表;
所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时,将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表,作为需对标的原始表所对应的标准表。
可选的,所述根据中文表名确定对应于需对标的原始表的标准表包括:
获取需对标的原始表的第一中文表名的第一特征向量;
获取各种类标准表的第二中文表名的第二特征向量;
计算获取的第一特征向量与各第二特征向量的相似度分值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634064.1/2.html,转载请声明来源钻瓜专利网。