[发明专利]一种基于实体属性的真值发现方法在审
申请号: | 201610207989.2 | 申请日: | 2016-04-05 |
公开(公告)号: | CN105912602A | 公开(公告)日: | 2016-08-31 |
发明(设计)人: | 徐小龙;刘笑笑;孙雁飞;鲁蔚锋;张登银;卢亚楠;王勇 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于实体属性的真值发现方法,集中考虑算法的主要影响因素,提出全新设计思想的真值发现模型,在现有数据源可靠性与事实准确性迭代计算机制的基础上,考虑同一实体属性事实相互支持度和数据源之间的依赖关系两个因素,简化真值发现算法,提高真值发现的准确性;而且提出了单向文本相似度与事实冲突程度相结合的方法来计算事实相互支持度,对实体属性文本存在的简写、省写、漏写、多写和次序颠倒等复杂情况有更强的适应能力和准确性,能够进一步提高真值发现的准确性;不仅如此,还提出了数据源对称包含度来计算数据源之间的依赖程度,充分考虑了真值发现方法的主要影响因素,进一步提高真值发现的准确性。 | ||
搜索关键词: | 一种 基于 实体 属性 真值 发现 方法 | ||
【主权项】:
一种基于实体属性的真值发现方法,用于在各个数据源分别为各个实体属性提供事实的情况下,确定各个实体属性分别所对应的真值事实,其特征在于,包括如下步骤:步骤001.所有数据源构成全局数据源集合,分别针对全局数据源集合中的各个数据源,随机初始化其可靠性为t(sn),然后进入步骤002;其中,n={1、…、N},N为全局数据源集合中数据源的个数,sn表示全局数据源集合中的第n个数据源,t(sn)表示全局数据源集合中第n个数据源的可靠性,0<t(sn)<1;步骤002.分别针对各个实体属性,针对全局数据源集合中各个数据源为实体属性提供的各个事实,按相同事实进行划分,即将相同的事实划分为一类,构成该实体属性的各个事实种类;并针对全局数据源集合中的各个数据源,按其分别针对该实体属性所提供各个事实的划分进行相应划分,构成与该各个事实种类分别相对应的各个局部数据源集合;再获得该实体属性所对应事实种类的个数I,I≤N,即分别获得各个实体属性分别所对应的各个事实种类,以及与各个事实种类相对应的各个局部数据源集合,然后初始化迭代次数r=1,并进入步骤003;步骤003.分别针对各个实体属性,根据如下公式,获得实体属性所对应各个事实种类的准确性t(fi),![]()
式中,i={1、…、I},fi表示该实体属性的第i个事实种类,t(fi)表示该实体属性的第i个事实种类的准确性,K表示该实体属性的第i个事实种类所对应局部数据源集合中的数据源的个数,K≤N,vk表示该实体属性的第i个事实种类所对应局部数据源集合中的第k个数据源,t(vk)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性;进而获得各个实体属性分别所对应各个事实种类的准确性t(fi),然后进入步骤004;步骤004.针对各个实体属性分别所对应各个事实种类的准确性t(fi)进行对数放大处理,获得各个实体属性分别所对应各个事实种类的第一准确性tp(fi);同时针对全局数据源集合中各个数据源的可靠性t(sn)进行对数放大处理,更新为tg(sn),即更新全局数据源集合中各个数据源的可靠性为tg(sn),然后进入步骤005;步骤005.分别针对各个实体属性,根据如下公式,分别获得实体属性的各个事实种类的冲突程度conflict(fi),![]()
式中,j={1、…、I},fj表示该实体属性的第j个事实种类,|fi|表示该实体属性的第i个事实种类中事实的数量,|fj|表示该实体属性的第j个事实种类中事实的数量;进而获得各个实体属性分别所对应各个事实种类的冲突程度conflict(fi),然后进入步骤006;步骤006.分别针对各个实体属性,根据如下公式,分别针对实体属性的各个事实种类fi,获得全局数据源集合中各个数据源为该实体属性所提供的各个事实f′z,分别针对fi的单向文本相似度sim(f′z,fi),![]()
式中,f′z表示全局数据源集合中各个数据源为该实体属性所提供各个事实中的第z个事实;c表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本与该实体属性第i个事实种类fi所对应文本之间相同词元的个数;len(f′z)表示全局数据源集合中各个数据源为该实体属性所提供各个事实中、第z个事实所对应文本的词元的个数;进而分别获得全局数据源集合中各个数据源为各个实体属性分别所提供的各个事实f′z,分别针对对应实体属性各个事实种类fi的单向文本相似度sim(f′z,fi),然后进入步骤007;步骤007.针对全局数据源集合中的各个数据源,根据如下公式,获得全局数据源集合中两两数据源之间的对称包含度depend(sn,sn'),然后进入步骤008;![]()
式中,n'={1、…、N},depend=sn,sn')表示全局数据源集合中第n个数据源与第n'个数据源之间的对称包含度;p=b‑t,q=d‑t;b表示全局数据源集合中第n个数据源针对各个实体属性所提供事实的个数;d表示全局数据源集合中第n'个数据源针对各个实体属性所提供事实的个数;t表示全局数据源集合中第n个数据源针对各个实体属性所提供各个事实,与全局数据源集合中第n'个数据源针对各个实体属性所提供各个事实之间相同事实的个数;步骤008.根据如下公式,分别针对全局数据源集合中的各个数据源,针对数据源的可靠性为tg(sn)进行调整,更新为t'g(sn),即更新该数据源的可靠性为t'g(sn),![]()
进而更新全局数据源集合中各个数据源的可靠性为t'g(sn);然后进入步骤009;步骤009.分别针对各个实体属性,根据如下公式,获得该实体属性各个事实种类的第二准确性为t'p(fi),![]()
式中,t'g(vk)表示该实体属性的第i个事实种类所对应局部数据源集合中第k个数据源的可靠性;进而获得各个实体属性分别所对应各个事实种类的第二准确性为t'p(fi),然后进入步骤010;步骤010.分别针对各个实体属性,根据如下公式,针对实体属性各个事实种类的准确性进行调整,更新为t″p(fi),即更新该实体属性各个事实种类的准确性为t″p(fi),![]()
式中,z={1、…、Z},
Z表示全局数据源集合中各个数据源为该实体属性所提供事实的个数;进而更新各个实体属性分别所对应各个事实种类的准确性为t″p(fi),然后进入步骤011;步骤011.针对各个实体属性分别所对应各个事实种类的准确性为t″p(fi),分别进行归一化处理更新,分别获得各个实体属性分别所对应各个事实种类的准确性为
然后进入步骤012;步骤012.根据事实种类中各个事实准确性彼此相等,以及各个实体属性分别所对应各个事实种类的准确性为
即获得各个实体属性分别所对应各个事实的准确性
然后进入步骤013;步骤013.分别针对全局数据源集合中的各个数据源,根据如下公式,更新获得各个数据源的可靠性![]()
![]()
式中,m={1、…、M},M表示全局数据源集合中第n个数据源sn为各个实体属性所提供事实的个数,f″m表示全局数据源集合中第n个数据源sn为各个实体属性所提供事实中的第m个事实,
表示全局数据源集合中第n个数据源sn为各个实体属性所提供事实中第m个事实的可靠性;进而获得全局数据源集合中各个数据源的可靠性
同时获得全局数据源集合中各个数据源的平均可靠性
然后进入步骤014;步骤014.判断迭代次数r是否大于等于2,是则进入步骤015;否则用r的值加1赋给r,并返回步骤003;步骤015.判断本次迭代中所获全局数据源集合中各个数据源的平均可靠性
与上一次迭代中所获全局数据源集合中各个数据源的平均可靠性
之间的差值是否大于预设迭代阈值,是则用r的值加1赋给r,并返回步骤003;否则进入步骤016;步骤016.根据本次迭代中所获各个实体属性分别所对应各个事实的准确性
分别获得各个实体属性的真值,即实现基于实体属性的真值发现。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610207989.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种网站模板快速迁移的方法
- 下一篇:终端应用程序的排名方法及终端