[发明专利]实体解析系统中匹配字段的自动检测在审
申请号: | 202180048991.9 | 申请日: | 2021-07-13 |
公开(公告)号: | CN115803727A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | N·R·辛格;A·赛斯;S·S·纳加纳;S·帕卡拉·斯里尼瓦斯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 解析 系统 匹配 字段 自动检测 | ||
1.一种计算机实现的方法,包括:
获得与有效负载数据相关联的多个有效负载属性字段;
从所述多个有效负载属性字段确定一个或多个潜在匹配字段;
确定针对所述一个或多个潜在匹配字段中的每个潜在匹配字段的匹配函数;
至少部分地基于所述匹配函数来确定针对所述一个或多个潜在匹配字段中的每个潜在匹配字段的属性得分;
获得针对参考数据集合的得分列表;
确定针对所述潜在匹配字段中的每个潜在匹配字段的所述属性得分与针对所述参考数据集合的所述得分列表的相关性;
至少部分地基于所述属性得分与针对所述参考数据集合的所述得分列表的所述相关性,从所述一个或多个潜在匹配字段选择一个或多个新匹配字段;
从所述一个或多个新匹配字段选择用于针对所述有效负载数据进行匹配的一个或多个属性字段;以及
提供用于匹配的所述一个或多个属性字段以用于在实体解析系统中匹配数据时使用。
2.根据权利要求1所述的计算机实现的方法,其中从所述多个有效负载属性字段确定所述一个或多个潜在匹配字段部分地基于所述多个有效负载属性字段中的每个有效负载属性字段的数据类别。
3.根据权利要求1所述的计算机实现的方法,其中从所述一个或多个潜在匹配字段选择所述一个或多个新匹配字段包括基于相关性的降序来对所述潜在匹配字段进行排序,以及选择限定数目的顶部条目作为新匹配字段。
4.根据权利要求1所述的计算机实现的方法,其中针对所述参考数据集合的所述得分列表提供预期匹配结果以及相关联的假肯定和假否定的比率。
5.根据权利要求1所述的计算机实现的方法,还包括确定针对所选择的所述新匹配字段中的每个新匹配字段的最佳权重,其中确定针对所选择的所述新匹配字段中的每个新匹配字段的所述最佳权重包括:
确定针对所选择的所述新匹配字段中的一个新匹配字段的初始权重;
基于所述参考数据集合和针对所选择的所述新匹配字段的所述初始权重,针对所选择的所述新匹配字段执行评分过程;
使用所选择的所述新匹配字段来确定针对所述参考数据集合的假肯定和假否定的总数目;
基于假肯定和假否定的比率来确定针对所选择的所述新匹配字段的新权重;
针对所选择的所述新匹配字段重复评分和权重调整,直到可接受的假肯定和假否定的比率被实现;
确定最终经调整的权重作为针对所选择的所述新匹配字段的所述最佳权重;以及
为所选择的所述新匹配字段连同对应的一个或多个属性字段一起提供所述最佳权重以用于匹配。
6.根据权利要求1所述的计算机实现的方法,其中从所选择的所述新匹配字段选择用于针对所述有效负载数据进行匹配的一个或多个属性字段至少部分地基于针对假肯定和假否定的阈值比率。
7.根据权利要求1所述的计算机实现的方法,还包括:
针对所述潜在匹配字段中的每个潜在匹配字段,确定针对所述匹配函数的得分范围;
通过基于所述得分范围的因子调整用于匹配的当前阈值,来确定用于匹配的经更新的阈值;以及
提供用于匹配的所述经更新的阈值以用于在从所述一个或多个潜在匹配字段选择一个或多个新匹配字段时使用,其中所述经更新的阈值基于包括附加匹配字段来针对总得分的增加进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180048991.9/1.html,转载请声明来源钻瓜专利网。