[发明专利]数据匹配方法、装置、计算机设备及存储介质在审
申请号: | 201910664541.7 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110427992A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 姜琳;孟庆丰;李敏;袁晓晓;吴林强;许琮浩 | 申请(专利权)人: | 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 黄勇 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明适用于计算机技术领域,提供了一种数据匹配方法、装置、计算机设备及存储介质,所述方法包括:获取数据表;对各数据列进行码表码值匹配;对各数据列中进行正则识别;确定各数据列的列类型;提取各列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及列基本属性特征;对各列的列特征向量进行识别,确定各列的列标签;基于标签对各列数据进行匹配。本发明实施例提供的数据匹配方法,在利用码表码值和正则识别进行预处理后,利用预设的列特征向量提取各列的列特征向量,相比于现有的方法,本发明提取出的列特征向量以更小的数据量笼络了数据在多个维度上的特征,在保证准确率的同时,有效降低了计算量。 | ||
搜索关键词: | 特征向量 数据匹配 数据列 计算机设备 存储介质 列数据 码表 匹配 标签 计算机技术领域 预处理 特征向量提取 描述特征 属性特征 统计特征 注释信息 计算量 数据量 准确率 维度 预设 保证 | ||
【主权项】:
1.一种数据匹配方法,其特征在于,所述方法包括:获取待匹配的多个数据表,所述数据表中包含多个数据列的列名信息和/或列注释信息以及各数据列的列数据;利用码表码值对各数据列的列数据进行匹配;利用正则表达式识别各数据列中符合预设匹配规则的部分;根据各数据列的列数据利用预设的规则识别确定各数据列的列类型,所述列类型包括数值型以及文本型;根据各数据列的列名信息和/或列注释信息、各数据列的列数据以及各数据列的列类型,利用预设的特征提取模型提取各数据列的列特征向量,所述列特征向量包括列数据的统计特征、列名和/或列注释信息的描述特征以及数据列基本属性特征,所述列数据的统计特征包括列数据的取值范围、均值、方差、分位数、变异系数、峰度、偏度、信息熵,数据列基本属性特征包括列数据的使用频率、数据列的列类型以及预先按照预设规则确定的数据列的重要度;基于各数据列的列类型采用与所述列类型对应的预先通过训练生成的数据识别模型对各数据列的列特征向量进行识别,并确定各数据列的列标签;基于各数据列的列标签对各数据列进行匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司,未经杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910664541.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种字符串匹配方法及装置
- 下一篇:基于气象参数的高速列车导航盲区定位方法