[发明专利]一种数据整合方法及系统、设备和存储介质在审
申请号: | 202111058864.5 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113760996A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 黄艳香;白强伟 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 陈宇瑄 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 整合 方法 系统 设备 存储 介质 | ||
本申请公开了一种数据整合方法,包括:实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源实体匹配;数据融合步骤:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。本发明方法实现了增量多源数据整合,可以减少匹配次数,释放已处理数据的存储空间。
技术领域
本申请涉及数据处理领域,特别是涉及一种数据整合方法、系统、计算机设备和计算机可读存储介质。
背景技术
当今当前,许多企业都将数据视为一项重要资产,但往往由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题,要完成不同部门数据资产的统一管理,并不简单。在企业的数字化转型过程中,将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而实体匹配和数据融合是这一过程中非常重要的环节。举例来讲,数据源1有个“张三,男,30岁,明略科技”,数据源2有个“张三,男,28岁,秒针”,判断两个“张三”是否是同一人,如是的话,需要将两个“张三”融合成为一个“张三”为应用层提供服务,判断是否一个人一般称之为实体匹配任务,而融合为一个“张三”一般称之为数据融合任务,实际应用中实体匹配任务和数据融合任务密切关联,共同组成多源数据的整合处理技术。
(1)针对不同数据源的数据整合即实体匹配和融合,现有技术一般采用批量数据处理的方式,先将所有来自不同数据源的实体进行1对1的匹配链接,然后将所有匹配成功的实体进行链接、融合,针对来自不同数据源的不同属性值,如前所述,保留一个真值。其中,判断真值的方式有投票法(即选择出现次数最多的作为真值)、权重投票法等等。
(2)针对属性相似度的计算,对于单一值,不同的数据类型有各自的相似度计算方式,如字符串相似度、数值相似度等,对于多值,即集合型值,现有技术一般采用Jaccard,cosine,Ochiai等相似度算法。
目前针对相关技术中,存在以下瓶颈,尚未提出有效解决方案:
(1)针对不同数据源的数据整合即实体匹配和融合,现有技术多采用传统的1v1匹配然后对数据进行融合,真值发现的方式,这种方式在处理批量数据时较为可行,但对于增量数据或动态变化的数据来讲,这种方式存在局限性。数据融合时,对每个属性仅保留真值发现后的“真值”,将丢失了其他数据源的“非真值”信息,这些信息可能是算法误判的真实数据、历史过期数据或者因误操作而导致的错误数据,一方面,随着数据的增加或变化,算法可能基于这些数据判断出更加准确的“真值”;另一方面,即使历史过期数据或错误数据,不同数据源的数据可能是由于类似的原因或误操作造成的,这样的数据在判断来自不同数据源的实体是否是一个实体即实体匹配时仍然具有价值。
(2)针对属性相似度的计算,当前单值属性相似度的计算相对比较成熟,但是对于多值属性即集合型属性的相似度计算,现有技术是将集合看成一个整体,如集合{a,b,c}和集合{c}的相似度按照Jaccard相似度是1/3,而在实体匹配场景中,集合的出现是不同数据源的值组合而成,集合中的元素是相对独立的,比如一个融合多个数据源后的实体某个属性值是{a,b,c},新增一个数据源中该实体的属性值是{c},实际含义是该属性值和其中一个数据源是完全匹配的,因此,传统计算方式在此场景下并不适合。对于集合型属性,采用传统计算方式得出的属性相似度不能准确反映实际信息,将影响实体匹配的准确度。
因此,基于上述现有技术中存在的问题,本发明方法提出以集合形式存储来自多个数据源的属性值的方法。提供了不同数据源的数据实体匹配和数据融合过程中,仅保留真值的处理方式造成信息丢失不适用于增量或动态变化场景的解决方案,提出了采用集合类数据结构存储属性的多值信息的方法。并且,针对此场景下的多值属性相似度的计算问题,解决现有技术计算结果不够准确的问题,提出了新的集合型属性值相似度计算方式。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111058864.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置