[发明专利]使用实体分辨识别重复方的系统在审
申请号: | 202010820702.X | 申请日: | 2020-08-14 |
公开(公告)号: | CN112445836A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 卢树言;马忆惠;S·海斯;王炜晨;E·索尔克尔德 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 实体 分辨 识别 复方 系统 | ||
1.一种用于在数据处理系统中执行实体分辨的计算机实现的方法,所述数据处理系统包括处理设备和包含指令的存储器,所述指令由所述处理设备执行,所述方法包括:
接收包含描述第一实体的第一实体特征和描述第二实体的第二实体特征的数据集;
从所述第一实体特征和所述第二实体特征生成综合数据集,所述综合数据集包含对所述第一和第二实体特征的每个实体特征的相似度评级,在所述第一实体和所述第二实体之间的所述相似度评级共同成为关系标记;
通过执行在所述相似度评级上的聚类分析来确定一个或多个距离,所述一个或多个距离从所述关系标记到和实体间的已知关系相关联的一个或多个聚类来测量;
基于所述一个或多个距离来生成叙述输出,所述叙述输出包括:
在所述第一实体和所述第二实体之间的至少一个识别的关系;
置信度分数;以及
将所述叙述输出提供给用户接口。
2.如权利要求1所述的方法,其中所述综合数据集是包含所述相似度评级的成对距离矩阵。
3.如权利要求2所述的方法,其中所述置信度分数是对于所述关系标记和与实体之间已知关系相关联的给定聚类之间有多接近的评估。
4.如权利要求1所述的方法,其中所述置信度分数是所述关系标记属于和实体间已知关系相关联的给定聚类的概率。
5.如权利要求4所述的方法,其中所述至少一个识别的关系包括至少两个识别的关系,并且所述置信度分数是每个识别的关系是正确的的概率。
6.如权利要求1所述的方法,其中所述第一实体特征和第二实体特征包括社保号、名字、姓氏和地址中的至少一个。
7.如权利要求1所述的方法,其中所述至少一个识别的关系包括同样的人和不同的人作为选项。
8.如权利要求1所述的方法,其中所述至少一个识别的关系包括,用于当所述第一实体和所述第二实体是不同的人时识别关系的关系标识符,所述关系标识符包括配偶,父母/子女,兄弟和不相关/同一个家庭中的至少一个作为选项。
9.如权利要求1所述的方法,进一步包括,基于已知信息判断一个或多个度量以评估所述叙述输出并基于所述一个或多个度量调整以下二者中的至少一个:所述机器学习算法,所述聚类分析。
10.如权利要求9所述的方法,其中调整所述机器学习算法或所述聚类分析中的至少一个包括,调整用于判断所述相似度评级或所述距离的权重因子。
11.一种实体分辨系统,包括处理设备和存储器,所述存储器包含指令,所述指令当被所述处理设备执行时,对由所述实体分辨接收的数据集执行实体分辨,所述数据集包括多个候选实体以及相关的实体特征,所述实体分辨系统进一步包括:
被配置为生成综合数据集的机器学习模块,所述综合数据集包括对所述数据集的每个实体特征的相似度评级,所述多个候选实体的两个实体之间的所述相似度评级共同构成和那两个实体相关的关系标记;以及
叙述模块,被配置为:
通过对相似度评级执行聚类分析以确定一个或多个距离,所述一个或多个距离由从每个关系标记到和实体间的已知关系相关联的一个或多个聚类而测量;
基于所述一个或多个距离而生成叙述输出,所述叙述输出包括:
在所述第一实体和所述第二实体之间的至少一个识别的关系;
置信度分数;以及
将所述叙述输出提供给用户接口。
12.根据权利要求11所述的实体分辨系统,其实所述综合数据集是包括所述相似度评级的成对距离矩阵。
13.根据权利要求12所述的实体分辨系统,其中所述置信度分数是关于所述关系标记和与实体之间已知关系相关联的给定聚类之间有多接近的评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010820702.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:节流装置以及冷冻循环系统
- 下一篇:使用实体分辨识别重复方的系统