[发明专利]网络表的实体扩展方法有效
申请号: | 201711090347.X | 申请日: | 2017-11-08 |
公开(公告)号: | CN107766567B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王宁;孙伟娟 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 实体 扩展 方法 | ||
本发明提供了一种网络表的实体扩展方法,该方法通过计算网络表与查询表之间的语义匹配值选取种子表组成种子团;选取具有最高表潜能的团表加入种子团,所述团表与种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;将所述一致性团的结点视为实体扩展所需的答案表,利用所述答案表构建实体一致性扩展的最终结果表。本发明所述的实体扩展方法在查找答案表时引入了一致性匹配关系的概念,提高了答案表的一致性,能够适应多元查询表的扩展,使得在保证结果一致性的同时,也保证了结果的高精确度与可信度。
技术领域
本发明涉及网页上结构化数据集成的技术领域,尤其涉及一种网络表的实体扩展方法。
背景技术
用户通常想要获取他们感兴趣的信息,可以利用网络上大量的表格作为信息源,通过实体扩展来实现。现有的技术假设网络表格是实体-属性二元关系。对于具有多列待扩展属性的表格,现有的技术先将这些表格拆分为若干个实体-属性二元关系,再将单独扩展的结果聚合成一个完整的答案。这样做的结果是,表格的语义在拆分过程中被分割,由拆分后的二元关系组成的结果表难免存在实体不一致和准确性低的缺点。
Mohamed Yakout等人所提出的InfoGather系统假设网络表格为实体-属性二元关系,认为表格只有一个待扩展的属性列。对于多元的表格,他们将其分裂为若干个实体-属性二元关系,也就是将实体列与任一其他的属性列组成若干个实体-属性的2元关系。采用这种策略的前提是,网络表格中的属性是互不相关的,这种假设显然忽略了属性列之间的联系,从而造成表格语义的分裂,导致实体扩展的准确度低与实体不一致的问题。
网络表格大多为n元表格,利用现有的技术对其进行拆分会破坏表格的语义,导致拼接后的实体与属性之间出现不一致问题。网络表格并不规范,存在列标签缺失等问题,无法根据列标签判断表格间的匹配关系。实体具有二义性,相同名称的实体可能存在不同的语义,仅依靠实体判断表格间的匹配关系会导致匹配表格之间出现语义冲突。
发明内容
针对现有技术的缺点,本发明提供了一种网络表的实体扩展方法,该方法能适用于多元查询表的实体扩展,且保证扩展结果的高一致性和高准确度。
为了实现上述目的,本发明采取了如下技术方案:
本发明提供了一种网络表的实体扩展方法,该方法处理的对象包括查询表和结果表,所述查询表用于实体扩展的输入;所述结果表为实体扩展的输出结果,所述结果表对应一组答案表,所述答案表为所述结果表提供所述查询表所需的属性值;该方法还包括:
通过计算查询表与网络表之间的语义匹配值选取种子表组成种子团;
选取具有最高表潜能的团表加入种子团,所述团表与所述种子团的各表之间满足一致性匹配关系,并且用于提高所述种子团的覆盖率,当所述覆盖率达到设定阈值时,所述种子团则视为满足给定覆盖率的一致性团;
将所述满足给定覆盖率的一致性团的结点视为实体扩展的答案表,利用所述答案表构建实体一致性扩展的最终结果表:
所述的通过计算查询表与网络表之间的语义匹配值包括:计算查询表Q与网络表tj之间的语义相关度SRD(Q,tj)和查询表Q与网络表tj之间的数值匹配度TMD(Q,tj);
所述的计算查询表Q与网络表tj之间的语义相关度SRD(Q,tj)包括:计算表格ti和tj之间的语义相关度SRD(ti,tj),计算公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711090347.X/2.html,转载请声明来源钻瓜专利网。