[发明专利]用于大规模实体解析的两级计算备忘在审
申请号: | 201980048151.5 | 申请日: | 2019-07-18 |
公开(公告)号: | CN112424757A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 李旻;L·普帕;P·瑟恩 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F12/0813 | 分类号: | G06F12/0813;G06F12/0866;G06F12/0897;G06F12/0811;G06N20/00;G06F3/06;G06N5/02 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 边海梅 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 大规模 实体 解析 两级 计算 备忘 | ||
一个实施例提供一种方法,该方法包括由处理器使用分布式计算备忘高速缓存来执行大规模实体解析的主动学习以消除冗余计算。确定用于所述大规模实体解析的所述主动学习的中间结果的链路特征向量表。通过两级高速缓存层级结构管理所述链路特征向量表。
背景技术
实体解析(ER)规则的主动学习减轻了交互性必不可少的用户的负担。当前解决方案在大数据集上不能很好地缩放。对于具有数百万记录的数据集合,每次迭代可能在6节点群集上花费数分钟到数十分钟。
匹配函数是组成ER规则的基本单元,该ER规则是由用户提供的。主动学习学习若干匹配函数的组成以及阈值并生成ER规则。主动的学习过程的多次迭代输出多个ER规则,这些ER规则作为整体标识属于同一现实词实体的实体。
阻塞函数是被结合到ER规则中的特定类型的匹配函数。一个ER规则应该具有至少一个阻塞函数。阻塞函数被用于减少来自双输入数据集的要被比较的对的数量,从而降低计算成本。
发明内容
实施例涉及通过使用分布式计算备忘高速缓存来优化大规模实体解析(ER)的主动学习来消除冗余计算。一个实施例提供一种方法,该方法包括由处理器使用分布式计算备忘高速缓存来执行大规模实体解析的主动学习以消除冗余计算。确定用于所述大规模实体解析的主动学习的中间结果的链路特征向量表。通过两级高速缓存层级结构管理链路特征向量表。
参考以下描述、所附权利要求和附图,本发明的这些和其他特征、方面和优点将变得可理解。
附图说明
现在将参考附图仅通过举例来描述本发明的实施例,在附图中:
图1描绘了根据实施例的云计算环境;
图2描绘了根据实施例的一组抽象模型层;
图3是根据实施例的用于两级分布式计算备忘高速缓存系统的网络架构;
图4示出了根据一个实施例的可以与图1的服务器和/或客户端相关联的代表性硬件环境;
图5是示出根据一个实施例的用于执行两级分布式计算备忘高速缓存处理的分布式系统的框图;
图6示出根据一个实施例的用于两级分布式计算备忘高速缓存系统的示例架构;
图7示出了根据一个实施例的用于在预先计算的链路特征高速缓存上进行高速缓存的过程的框图;
图8示出根据一个实施例的用于即时(on the fly)计算链接特征向量的高速缓存的过程的框图;
图9示出了根据一个实施例的磁盘缓存管理过程的示例框图;
图10示出了根据一个实施例的用于对两级分布式计算备忘高速缓存代码过程的示例代码;以及
图11示出根据一个实施例的用于通过使用分布式计算备忘高速缓存来优化大规模实体解析(ER)的主动学习来消除冗余计算的过程的框图。
具体实施方式
已经出于说明的目的呈现了对不同实施例的描述,但并非旨在是穷尽性的或局限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择本文使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解本文披露的实施例。
首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980048151.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于制造容器的方法和用于制造容器的装置
- 下一篇:用于帘的裂口索环