[发明专利]数据匹配方法、装置、计算机设备及存储介质在审
申请号: | 201910664541.7 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110427992A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 姜琳;孟庆丰;李敏;袁晓晓;吴林强;许琮浩 | 申请(专利权)人: | 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 黄勇 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征向量 数据匹配 数据列 计算机设备 存储介质 列数据 码表 匹配 标签 计算机技术领域 预处理 特征向量提取 描述特征 属性特征 统计特征 注释信息 计算量 数据量 准确率 维度 预设 保证 | ||
本发明适用于计算机技术领域,提供了一种数据匹配方法、装置、计算机设备及存储介质,所述方法包括:获取数据表;对各数据列进行码表码值匹配;对各数据列中进行正则识别;确定各数据列的列类型;提取各列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及列基本属性特征;对各列的列特征向量进行识别,确定各列的列标签;基于标签对各列数据进行匹配。本发明实施例提供的数据匹配方法,在利用码表码值和正则识别进行预处理后,利用预设的列特征向量提取各列的列特征向量,相比于现有的方法,本发明提取出的列特征向量以更小的数据量笼络了数据在多个维度上的特征,在保证准确率的同时,有效降低了计算量。
技术领域
本发明属于计算机技术领域,尤其涉及一种数据匹配方法、装置、计算机设备及存储介质。
背景技术
在政府业务开展过程中,通常会产生大量的政务数据,然而这些政务数据虽然处于不同的政府业务中,但也会存在类型相似的大量重复数据,因此,在对政务数据进行处理的过程中,通常需要将不同政务业务产生的类型相似的数据进行整合,利用数据识别,在数据库之间寻找相关性的数据。
现有的在数据库之间寻找相关性的数据的方法有很多种,不同的方法起到的效果也不同。例如,人工进行数据匹配的方法准确率相对较高,但计算量随着数据库的增加而急剧增加,显然不适合大型数据库的数据匹配。而利用程序进行数据匹配的方法主要有两种,一种是利用数据库中存在的字段描述,利用模糊搜索查找相似的数据,但这种方法中容易因字段描述缺失而导致匹配率不高的技术问题,另一种是利用数据库中的数据内容进行匹配,对不同类型的数据内容需要用到不同的匹配方法,计算量较大,计算速度缓慢。
可见,现有的数据识别技术,尤其是针对于数据量大的政务数据的匹配方法,还存在着计算量大、计算数据不准确的技术问题。
发明内容
本发明实施例的目的在于提供一种数据匹配方法、装置、计算机设备及存储介质,旨在解决现有的数据识别技术还存在着计算量大、计算数据不准确的技术问题。
本发明实施例是这样实现的,一种数据匹配方法,所述方法包括:
获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
利用码表码值对各数据列的列数据进行匹配;
利用正则表达式识别各数据列中符合预设匹配规则的部分;
根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;
根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;
基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;
基于各数据列的列标签对各数据列进行匹配。
本发明实施例的另一目的在于提供一种数据匹配装置,包括:
数据表获取单元,用于获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;
码表码值匹配单元,用于利用码表码值对各数据列的列数据进行匹配;
正则识别单元,用于利用正则表达式识别各数据列中符合预设匹配规则的部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司,未经杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910664541.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种字符串匹配方法及装置
- 下一篇:基于气象参数的高速列车导航盲区定位方法