[发明专利]实体解析系统中匹配字段的自动检测在审

专利信息
申请号: 202180048991.9 申请日: 2021-07-13
公开(公告)号: CN115803727A 公开(公告)日: 2023-03-14
发明(设计)人: N·R·辛格;A·赛斯;S·S·纳加纳;S·帕卡拉·斯里尼瓦斯 申请(专利权)人: 国际商业机器公司
主分类号: G06F16/22 分类号: G06F16/22
代理公司: 北京市金杜律师事务所 11256 代理人: 酆迅
地址: 美国纽*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实体 解析 系统 匹配 字段 自动检测
【说明书】:

提供了执行以下操作的方法、计算机程序产品和/或系统:获得有效负载属性字段;从有效负载属性字段确定潜在匹配字段;确定针对潜在匹配字段中的每一个的匹配函数;基于匹配函数来确定潜在匹配字段中的每个潜在匹配字段的属性得分;获得参考数据集合的得分列表;确定潜在匹配字段中的每一个的属性得分与参考数据集合得分列表的相关性;至少部分基于相关性从潜在匹配字段选择新匹配字段;确定所选择的新匹配字段中的每个新匹配字段的最佳权重;基于针对假肯定和假否定的阈值比率,从所选择的新匹配字段中选择用于匹配的属性字段;以及提供用于匹配的属性字段和针对属性字段的关联的最佳权重。

背景技术

本公开总体涉及主数据管理领域,并且更具体地涉及标识用于在匹配和链接实体解析系统中使用的数据匹配字段/属性。

通常,主数据管理可用于限定和管理组织的关键数据。主数据管理可以提供用于收集、匹配、合并和分发组织数据的过程,以允许对该数据的使用和维护的一致性、准确性和控制。

实体解析系统在主数据管理内提供了有用的工具。实体解析系统允许组织连接异构数据源以提供对不同数据集合内和跨不同数据集合的可能的实体匹配和非显而易见的关系的理解。

发明内容

根据本发明的方面,存在一种计算机实现的方法、计算机程序产品和/或系统,其执行以下操作(不一定按照以下顺序):获得与有效负载数据相关联的多个有效负载属性字段;从多个有效负载属性字段确定一个或多个潜在匹配字段;确定一个或多个潜在匹配字段中的每个潜在匹配字段的匹配函数;至少部分基于匹配函数来确定一个或多个潜在匹配字段中的每个潜在匹配字段的属性得分;获得针对参考数据集合的得分列表;确定潜在匹配字段中的每个潜在匹配字段的属性得分与参考数据集合得分列表的相关性;至少部分基于属性得分与参考数据集合得分列表的所述相关性,从一个或多个潜在匹配字段选择一个或多个新匹配字段;从所选择的新匹配字段选择用于匹配有效负载数据的一个或多个属性字段;以及提供用于匹配的一个或多个属性字段以用于在实体解析系统中匹配数据。

附图说明

图1是根据本公开的系统的第一实施例的框图视图;

图2是示出至少部分地由第一实施例系统执行的第一实施例方法的流程图;

图3是示出第一实施例系统的机器逻辑(例如,软件)部分的框图;

图4是示出能够执行根据本公开的方法的另一示例实施例的功能框图;以及

图5示出了根据本公开的实施例的数据记录的示例属性。

具体实施方式

根据本公开的方面,可以提供系统和方法以允许自动检测和/或推荐与有效负载数据相关联的新匹配字段,以用于在实体解析系统中匹配和链接数据。特别地,本公开的系统和方法可以提供用于根据尚未匹配的有效负载数据(例如,有效负载字段/属性)来评估潜在的新匹配字段/属性,并且例如通过与参考数据进行比较并且确定对假肯定和/或假否定的数目的影响来判断新匹配字段的有用性。

通常,主数据管理可用于限定和管理组织的关键数据。主数据管理可以提供用于收集、匹配、合并和分发组织数据的过程,以允许对该数据的使用和维护的一致性、准确性和控制。实体解析系统在主数据管理内提供了有用的工具,并且可以允许组织连接异构数据源,以提供对不同数据集合内和跨不同数据集合的可能的实体匹配和非显而易见的关系的理解。实体解析可以允许确定对真实世界实体(例如,在有效负载数据记录内)的引用何时指代相同实体或指代不同实体。

主数据管理解决方案通常涉及作为核心能力的匹配和链接数据。在给定群体中找到重复匹配通常将涉及显著数目的比较(例如,n2比较),但是在索引中使用分组,比较的数目可以限于所选择的候选集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202180048991.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top