[发明专利]主数据映射处理方法、装置、计算机设备及存储介质有效
申请号: | 201911052600.1 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110795524B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 龙乐乐 | 申请(专利权)人: | 望海康信(北京)科技股份公司 |
主分类号: | G06F16/30 | 分类号: | G06F16/30;G06F16/24 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 映射 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请公开了一种主数据映射处理方法、装置、计算机设备及存储介质,包括,获取待映射的目标数据,其中,目标数据包括第一属性文件;计算第一属性文件与预设的参考数据的第二属性文件的第一相似度值,其中,第一属性文件设置有多个,第二属性文件也设置有多个,第一属性文件与第二属性文件一一映射,从而得到多个第一相似度值;根据多个第一相似度值生成表征目标数据与参考数据重合度的总相似度值;根据总相似度值对目标数据进行映射处理。本申请通过对不同的属性文件分别进行相似度计算,再计算总的相似度,使获得的总相似度值,使相似度计算更为客观,消除人为干扰,且映射方式更方便、快捷。
技术领域
本申请涉及企业信息化的数据处理技术领域,具体而言,本申请涉及一种主数据映射处理方法、装置、计算机设备及存储介质。
背景技术
主数据是企业内跨业务、能共享的高价值核心业务实体,是企业的关键数据,例如:人员、产品、供应商、物料等。主数据管理帮助企业建立主数据单一视图并进行数据共享。
主数据管理整合企业各业务系统的主数据然后进行数据治理。数据治理的一个重要技术手段是主数据映射,主数据映射的目的是把重复的、疑似重复的两条或多条数据找出来,进行筛选与修改,然后与标准主数据建立对照关系,这样能提高主数据共享的数据质量。
现有的主数据映射技术主要包括:一、利用数据库能力,写SQL使用where语句的“=”、“LIKE”或特定函数来去重数据,人工比较后写SQL直接进行映射关系的更新;二、利用EXCEL等工具进行人工去重比对并与标准主数据建立映射关系,然后直接导入到系统。
以上两种传统方案的缺陷有:1)忽略了数据相似判断是业务与技术相结合的过程,既要技术手段还需要业务手段,一般情况使用技术手段去重后,需要业务人员进行稽核,确定是否要去重或修改;2)仅使用传统的数据库能力很难找到疑似重复、不同词但同义的主数据记录,例如供应商地址:“辽宁省沈阳市”与“沈阳市”就是一个地址。3)两条主数据记录有时要进行多字段属性内容的综合比较,来确定二者的相似度,而非单个属性。
发明内容
基于以上问题,本申请公开一种主数据映射处理方法、装置、计算机设备及存储介质,采用计算机对多个数据多个属性文件进行客观、准确、快速地相似度识别和数据映射。
本申请的实施例根据第一个方面,提供了一种主数据映射处理方法,包括:
获取待映射的目标数据,其中,所述目标数据包括第一属性文件;
计算所述第一属性文件与预设的参考数据的第二属性文件的第一相似度值,其中,所述第一属性文件设置有多个,所述第二属性文件也设置有多个,所述第一属性文件与所述第二属性文件一一映射,从而得到多个所述第一相似度值;
根据多个所述第一相似度值生成表征所述目标数据与所述参考数据重合度的总相似度值;
根据所述总相似度值对所述目标数据进行映射处理。
可选的,所述第一属性文件包括第一标识信息和第一文本信息,所述第一标识信息与所述第一文本信息一一映射,所述第二属性文件包括第二标识信息和第二文本信息,所述第二标识信息与所述第二文本信息一一映射,其中,所述第一标识信息为表征所述目标数据的类型参数,所述第二标识信息为表征所述参考数据的类型参数;所述计算所述第一属性文件与预设的参考数据的第二属性文件的第一相似度值的方法包括:
提取类型参数相同的第一标识信息和第二标识信息所分别映射的第一文本信息和第二文本信息;
对所提取的所述第一文本信息和所述第二文本信息进行比对,以得到所述第一相似度值。
可选的,所述对所提取的所述第一文本信息和所述第二文本信息进行比对,以获得到所述第一相似度值的方法包括:
调取规则数据库,在所述规则数据库中查找确定与所述第一标识信息匹配的比较规则;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于望海康信(北京)科技股份公司,未经望海康信(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911052600.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置