[发明专利]解决数据语义异构问题的多源异构数据库数据集成方法在审
申请号: | 201711368135.3 | 申请日: | 2017-12-18 |
公开(公告)号: | CN107958086A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 张敏杰;杨宁;于嘉明;白文峰 | 申请(专利权)人: | 北京睿力科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司11246 | 代理人: | 文芳 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 解决 数据 语义 问题 多源异构 数据库 集成 方法 | ||
技术领域
本发明涉及数据集成技术领域,特别涉及一种解决数据语义异构问题的多源异构数据库数据集成方法。
背景技术
数据集成的目标是为多个自治数据源中的数据提供统一的存储,这一目标说起来容易,但实现起来已被证明异常困难,尤其是对分布在多个异构数据库中的数据进行数据集成时,常常遇到语义歧义、实例表示歧义、数据不一致性等问题,具体表现为:
1.语义歧义:同一概念信息在不同数据源的语义表示(例如,数据库Schema模式)可能非常不同,不同概念信息在不同数据源中的语义表示可能很相似;
2.实例表示歧义:数据集成常常需要将来自多个数据源的同一个数据实例关联在一起,然而由于数据源的自治性,这些数据实例具有不同的表示形式;
3.数据不一致性:同一个实例在不同的数据源中的信息表现存在差异,且其信息跟数据源存在不一致性
传统数据集成技术手段在解决以上问题时,大都可以分为模式对齐、记录链接、数据融合三个步骤,存在以下不足:
1.集成成本高:传统集成技术需要通过数据分析人员开展大量的数据梳理工作,数据分析人员通过工具分析表结构、抽取概要数据、与业务专家交谈等方式,完成对数据库数据的情况分析。整个集成工作严重依赖于分析人员开展,系统实施周期较长,集成成本高;
2.集成手段机械,不容易变更:基于传统数据集成技术,当存在集成需求发生变更,比如增加一个字段时,传统集成技术实施手段灵活性差,难以在较短时间内满足用户要求。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种解决数据语义异构问题的多源异构数据库数据集成方法。
为了实现上述目的,本发明的实施例提供一种解决数据语义异构问题的多源异构数据库数据集成方法,包括如下步骤:
步骤S1,采集来自企业的多个数据源,每个所述数据源包含的表格、属性、语义均不同,将上述多个数据源采用模式对齐方式进行处理,以确定具有相同语义的属性和具有不同语义的属性;
步骤S2,对已经模式对齐的数据,记录数据的链接,以确定指向相同实体的链接和指向不同实体的链接;
步骤S3,采用数据融合方式查询出反应企业真实情况的真实值。
进一步,在所述步骤S1中,采集得到的多个数据源存储在关系型数据库中。
进一步,在所述步骤S2中,首先对数据进行分块;然后记录数据的链接连接,将链接进行两两匹配,判断两者是否属于同一实体;最后对匹配的记录链接对进行聚类,以使得划分内部都是指向同一实体,不同划分指向不同的实体。
进一步,所述对数据进行分块,包括如下步骤:在一个或多个属性值上建立分块函数,利用该函数划分输入记录为多个小块,然后进行两两匹配操作。
进一步,对分块后的数据进行两两匹配,包括如下步骤:采用正、负训练样例构建分类器,该分类器用于决定记录链接对是否表示同一实体,并且输出一个可能的匹配序列,由用户在该可能的匹配序列中选择一个合适的选项。
进一步,在所述步骤S3中,
(1)采用投票机制,每个数据源为自己给出的取值投一票,得票最多的取值就视为真;
(2)对每一个数据源,根据其提供数据的正确程度来评价其可信度,可信度越高的数据源应该获得更高的投票数;
(3)在不同数据源间进行复制检测,复制值在投票中应采取折扣处理。
进一步,在所述步骤S3中,数据被转换为具有图特征的RDF格式数据,上述RDF格式数据互相关联引用组成示意图。
根据本发明实施例的解决数据语义异构问题的多源异构数据库数据集成方法,应用本体论理论,应用“实例-属性-关系”等基本理念,将分布在多个源端数据库中的数据转换成符合RDF格式的实例数据,这些实例数据是基于图模型进行存储的,综合运用机器学习、聚类挖掘等算法,计算信息相似度,分步骤解决语义歧义、实例表示歧义、数据不一致性等问题。本发明通过模式对齐手段解决语义歧义的问题、在记录链接阶段解决实例表示歧义的问题,采用分块策略可以显著降低两两比较次数,并且通过数据融合的手段解决数据表示不一致问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿力科技有限公司,未经北京睿力科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711368135.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置