[发明专利]相似表的识别方法及装置在审
申请号: | 201811446237.7 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109325035A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 陈志远 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表信息 文本 相似度 获取数据 数据仓库 字段 仓库 转换 | ||
本说明书实施例提供了一种相似表的识别方法及装置,该方法包括:获取数据仓库中多个待识别表所对应的表信息;其中,该表信息包括待识别表中字段名称;分别将每个待识别表所对应的表信息转换为对应的一个文本,以得到多个文本;确定多个文本之间的相似度值;基于相似度值识别数据仓库中相似的表。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种相似表的识别方法及装置。
背景技术
表,是数据仓库中用来存储数据的对象,数据在表中按行与列的格式组织排列,表中的每一列都设计为存储某种类型的信息,例如,姓名、日期等。当前一些主流数据库,如mysql、oracle、hive等都是采用表的形式存储数据。
随着业务的快速发展,数据仓库中所存储的数据也越来越多,因此,存储在数据仓库中的表也就越来越多。这样可能会导致数据仓库中的表混乱,使得数据使用方不容易找到需要的数据的问题出现。并且,由于研发人员各自开发,可能会存在数据重复加工,产生大量冗余的表的问题。
因此,亟需提出一种技术方案,以实现可以将相似的表识别出来,从而实现对数据仓库中的表进行整理归类以及减少冗余表。
发明内容
本说明书实施例的目的是提供一种相似表的识别方法及装置,根据数据仓库中每个待识别表所对应的表信息,将数据仓库中的表转换成对应的文本,通过相似文本的识别,实现相似表的识别;本说明书实施例实现了对相似表的识别,并且为自动化识别,降低了人力成本,并且识别效率高。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供了一种相似表的识别方法,包括:
获取数据仓库中多个待识别表所对应的表信息;其中,所述表信息包括所述待识别表中字段名称;
分别将每个所述待识别表所对应的表信息转换为对应的一个文本,以得到多个文本;
确定所述多个文本之间的相似度值;
基于所述相似度值识别所述数据仓库中相似的表。
本说明书实施例还提供了一种相似表的识别装置,包括:
获取模块,用于获取数据仓库中多个待识别表所对应的表信息;其中,所述表信息包括所述待识别表中字段名称;
转换模块,用于分别将每个所述待识别表所对应的表信息转换为对应的一个文本,以得到多个文本;
确定模块,用于确定所述多个文本之间的相似度值;
识别模块,用于基于所述相似度值识别所述数据仓库中相似的表。
本说明书实施例还提供了一种相似表的识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取数据仓库中多个待识别表所对应的表信息;其中,所述表信息包括所述待识别表中字段名称;
分别将每个所述待识别表所对应的表信息转换为对应的一个文本,以得到多个文本;
确定所述多个文本之间的相似度值;
基于所述相似度值识别所述数据仓库中相似的表。
本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取数据仓库中多个待识别表所对应的表信息;其中,所述表信息包括所述待识别表中字段名称;
分别将每个所述待识别表所对应的表信息转换为对应的一个文本,以得到多个文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811446237.7/2.html,转载请声明来源钻瓜专利网。