[发明专利]高效的基于位置的实体记录合并在审
申请号: | 201680045479.8 | 申请日: | 2016-07-27 |
公开(公告)号: | CN107851128A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | S·沙 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所11256 | 代理人: | 王茂华,杜波 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高效 基于 位置 实体 记录 合并 | ||
背景技术
可以从各种源获得对应于一个或多个实体的实体记录。遗憾的是,来自任何特定源的实体记录都可能包括重复(即,引用相同实体的一个或多个实体记录)。由于实体记录的单个源可能包含给定实体的重复实体记录,因而在来自多个源的记录当中重复实体记录的潜在性甚至更大。当然,希望的是具有单个实体记录集合而没有重复。因此,在从一个或多个源获得实体记录信息时,需要将属于一个实体的所有实体记录匹配并且融合到单个实体记录中。通过将多个实体记录匹配并且融合到唯一实体记录集中而进行的去重过程被称为合并。
重复实体记录可以出于各种原因而在实体记录语料库中被找到,包括以稍微不同的方式描述相同实体的个体记录,例如,“Wild Ginger Chinese Cuisine”还可以被称为“Wild-Ginger Asian Restaurant”等。类似地,对应于相同实体的两个实体记录可以例如使用地址或者纬度/经度对来标识实体的位置,然而位置数据可能不是以相同的方式被描述的。例如,第一实体记录中的地址(即,实体记录的位置数据)“100 SE Main Street,Apt 100”可以对应于第二实体记录引用的相同位置,在第二实体记录中地址被指定为“100 South East Main Street,Suite#100.”。拼写错误、GPS错误、软件漏洞、缩写、省略等也可能单独地并且一起导致引用相同实体但是不会被轻易匹配为相同(并且因此应当被合并为单个实体记录)的实体记录语料库中的多个实体记录。
不管出于何种原因单个实体在记录语料库中存在多个实体记录,从用户/消费者的角度来看,当作出关于该特定实体的请求时,响应于该请求接收到多个“正确”答案是令人沮丧、混乱并且分心的,其中的每个答案都标识该实体但是具有稍微不同的信息。
合并实体记录的过程通常涉及逐对比较。使用逐对比较,合并小实体记录集可以相对迅速地(即,近实时)被完成。遗憾的是,逐对比较技术可以被一般化为Θ(n2)过程,使得随着记录的数目线性地增加,逐对比较的数目以平方增加,并且因此,进行记录合并(基于逐对比较)的时间量随着要比较的记录的线性增加而以平方扩展。而且常常地,人们需要将小数目的额外实体记录合并到已经被合并的大实体记录语料库中。使用全逐对比较方法使这样的增量处理低效。
发明内容
本概述被提供以便以简化形式介绍下文在具体实施方式中进一步描述的概念的精华。本概述不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在被用于限制要求保护的技术方案的范围。
根据所公开的技术方案的各方面,进行关于合并实体记录语料库的位置数据的第一处理阶段。该第一处理阶段以离线的异步方式进行,以将实体记录语料库中的实体记录的位置数据聚集到位置聚类,从逻辑视点而言实体记录的每个位置聚类被认为对应于特定地理位置处的相同结构。以近实时方式进行关于将接收到的实体记录与实体记录语料库中的现有实体记录合并的第二处理阶段。该第二处理阶段首先将接收到的实体记录匹配到位置聚类,并且然后将接收到的实体记录匹配到位置聚类内的实体记录。在将接收到的实体记录与位置聚类中的实体记录匹配时,两个实体记录被合并。
根据所公开的技术方案的各方面,给出了一种用于合并实体记录语料库的计算机实现的方法。作为方法的一部分,访问实体记录语料库。实体记录语料库包括多个实体记录,其中每个实体记录包括位置数据和属性数据;位置数据包括用于定位实体记录的对应实体的信息,并且属性数据包括关于位置数据的位置处的被引用实体的信息。从实体记录语料库生成位置聚类集。该位置聚类集基于每个实体记录的位置数据被生成,并且任何给定位置聚类中的每个位置被视为对与相同位置聚类中的其他实体记录相同的地理位置的引用。位置聚类集随后地被访问,并且实体记录语料库中的实体记录中的每个实体记录与位置聚类集中的位置聚类相关联。位置聚类集中的每个位置聚类中的实体记录被融合到针对该位置聚类的单个合并实体记录中,并且融合/合并实体记录被存储在合并位置数据存储中,作为合并实体记录语料库的一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680045479.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型室外监控摄像头
- 下一篇:一种基于凸轮限位的智能交通实时路况摄像头