[发明专利]一种基于局部敏感哈希策略的实例匹配方法有效
申请号: | 201510307301.3 | 申请日: | 2015-06-05 |
公开(公告)号: | CN104866471B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 张海威;石彬;李仲伟;解晓芳;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 敏感 策略 实例 匹配 方法 | ||
1.一种基于局部敏感哈希策略的实例匹配方法,其特征在于,解决语义网中快速提取两个数据集间描述相同事物实例的难题;Linked Data是语义网的一个具体实现,以RDF三元组作为基础数据模型;RDF三元组是由主语、谓语和宾语组成的描述事物特征的框架,数据集中的实例由多个RDF三元组组成;
所述实例匹配方法详细步骤如下:
第1、根据谓语的覆盖率和辨别率找到重要谓语
第1.1、计算谓语的覆盖率;谓语覆盖率是谓语在整个数据集所有实例中出现的频率;
第1.2、计算谓语的辨别率;谓语辨别率是从数据集中辨别出某一个实例的能力;
第1.3、计算重要谓语;重要谓语是指数据集中谓语覆盖率和谓语辨别率都大于各自指定阈值的谓语;
第2、匹配不同数据集间的重要谓语得到候选谓语对;
第2.1、汇总同一数据类型的谓语;对第1.3步得到的重要谓语进行分类,谓语的类型是由RDF宾语的类型决定,将谓语类型划分为四种,包括string,URI,数值和日期,对同一类型的谓语进行汇总,两两组成一个谓语对;
第2.2、计算每个谓语对匹配的置信度;对第2.1步中每一个类型的所有谓语对分别计算其匹配的置信度,将谓语的所有宾语放在一个集合中,然后分别计算宾语间的Jaccard距离,也就是谓语对匹配的置信度;
第2.3、筛选候选谓语对;通过阈值来筛选所有谓语对,只有当匹配对的置信度高于阈值时,该匹配对才能加入到候选谓语匹配对进入接下来的步骤中;
第3、根据局部敏感哈希策略提取候选实例对
第3.1、构建实例的向量空间模型;对RDF三元组的宾语进行分词,以词语ID作为特征值,这些特征用向量的方式来表达,将整个数据集转化为一个实例ID对应一个特征向量v的向量空间模型;
第3.2、局部敏感哈希处理;采用基于Jaccard距离的局部敏感哈希函数族,随机产生n个哈希函数,对第3.1步的每个实例ID计算得到其签名向量,签名向量汇总在一起,整个数据集就转化为一个最小哈希签名矩阵,然后通过行条化处理得到候选实例对;所述的行条化处理是指,在得到最小哈希签名矩阵后,将签名矩阵划分为b个行条,每个行条由r行组成;对每个行条,存在一个哈希函数能够将行条中的每r个整数组成的列向量映射到某个大数目范围的桶中;
第4、实例匹配
设置实例匹配相似度的阈值,利用谓语匹配的置信度作为权重,采用加权平均的方式计算实例匹配的相似度,大于相似度阈值的实例对即为最终的实例匹配结果。
2.根据权利要求1所述的方法,其特征在于,第1步所述的覆盖率的计算方法如公式(1)所示:
其中,D表示数据集,x表示数据集D中的实例,t表示一个RDF三元组,s表示三元组中的主语、pk表示三元组中的谓语、o表示三元组中的宾语;该公式能够计算出谓语pk在整个数据集D所有实例中的出现频率,即数据集中包含谓语pk的实例数量与数据集中所有实例数量的比值。
3.根据权利要求1所述的方法,其特征在于,第1步所述的辨别率的计算方法如公式(2)所示:
该公式描述了谓语宾语的个数与三元组个数的比值,反映了谓语对应宾语的多样性;D表示数据集,x表示数据集D中的实例,t表示一个RDF三元组,s表示三元组中的主语、pk表示三元组中的谓语、o表示三元组中的宾语;该公式能够计算每个谓语pk对实例的辨别能力,即每个谓语包含所有宾语的种类与包含所有宾语的个数的比值。
4.根据权利要求1所述的方法,其特征在于,第1步所述的重要谓语的计算方法如公式(3)所示:
{p|p∈D,Cov(p)>α&&Dis(p)>β}(3)
其中D表示数据集,p表示三元组中的谓语,α、β由人工指定,默认将α设置为覆盖率Cov(p)的平均值,将β设置为辨别率Dis(p)的平均值;如果一个谓语的频率和辨别率分别大于给定的阈值α和β,那么这个谓语就是重要的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510307301.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:产品监督抽样打单软件系统
- 下一篇:一种分布式POS用数据存储计算机系统