[发明专利]一种面向共指消解的多语义网实体对比表自动生成方法有效
申请号: | 201510662906.4 | 申请日: | 2015-10-14 |
公开(公告)号: | CN105260457B | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 胡伟;仇宏磊;瞿裕忠 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消解 关键属性 对比表 语义网 用户参与 自动生成 语义 文本信息 合并 可视化 冗余度 冗余 准确率 可选 集合 重复 应用 | ||
1.一种面向共指消解的多语义网实体对比表生成方法,其特征在于,包括以下步骤:
(1.1)对于来自不同语义网数据源的一组候选共指实体,根据实体涉及本体的结构信息和属性及取值的文本信息,合并不同数据源中语义相近的属性;
(1.2)基于所述步骤(1.1)得到的合并后的属性,根据实体在属性上的取值分布,为属性是否合适于实体共指消解计算评分;
(1.3)基于所述步骤(1.1)得到的合并后的属性,根据实体在属性上的取值,计算未选属性与已选属性的取值冗余度;
(1.4)基于所述步骤(1.2)得到的属性评分和所述步骤(1.3)得到的冗余度,挑选一组高评分且低冗余的关键属性;
(1.5)基于所述步骤(1.4)选出的关键属性及实体在关键属性上的取值,生成可视化实体对比表供用户参与实体共指消解;
所述步骤(1.2)包括以下步骤:
(2.1)计算候选共指实体集合中不同实体在该属性上取值的差异程度,即实体在该属性上不同取值个数与实体在该属性上所有取值个数的比值;
(2.2)计算属性的覆盖率,即该属性能够覆盖的候选共指实体集合中实体的比例;
(2.3)基于步骤(2.1)和步骤(2.2)计算属性综合评分,即取值的差异程度越接近预设值,评分越高;属性的覆盖率越高,评分越高;所述差异程度的预设值根据候选共指实体数目以及数据源数目设定。
2.根据权利要求1所述的面向共指消解的多语义网实体对比表生成方法,其特征在于,所述步骤(1.4)包括以下步骤:
(3.1)如果没有已选属性,则挑选一个评分最高的属性加入关键属性集合,并作为已选属性;
(3.2)如果存在已选属性,则对每个未选属性分别与每个已选属性计算冗余度,选择最大的冗余度作为该未选属性与已选属性集合的冗余度;
(3.3)基于每个属性的评分与冗余度,挑选出一个高评分且低冗余的属性加入关键属性集合;
(3.4)重复所述步骤(3.2)和步骤(3.3),直到选完预定数目的属性或无属性可选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510662906.4/1.html,转载请声明来源钻瓜专利网。