[发明专利]一种基于层次卷积网络的实体与段落链接方法有效

专利信息
申请号: 201510372795.3 申请日: 2015-06-30
公开(公告)号: CN104915448B 公开(公告)日: 2018-03-27
发明(设计)人: 包红云;郑孙聪;许家铭;齐振宇;徐博;郝红卫 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/30 分类号: G06F17/30;G06N3/08
代理公司: 中科专利商标代理有限责任公司11021 代理人: 宋焰琴
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 层次 卷积 网络 实体 段落 链接 方法
【说明书】:

技术领域

发明涉及知识库构建技术领域,更具体地涉及一种基于层次卷积网络的实体与段落链接方法。

背景技术

如今,已广泛使用的大规模知识库有Freebase、WordNet和YAGO等。它们都致力于构建一个全局的资源库,并且允许机器更方便地访问并获取结构化公共信息。同时,这些知识库提供了应用程序结构(APIs)以方便人们查询相关实体更为丰富的信息。例如,当我们在YAGO数据库中检索一个城市名“Washington D.C.”时,返回结果如下表1所示:

表1

可以看到,返回的结果信息都是一些高度结构化的组织信息。但这些结构化信息并不符合人们理解实体的实际语境及语义信息。和YAGO数据库不同,Freebase和WordNet则返回结构化信息的同时会额外返回与检索实体相关的描述性段落,如下表2所示:

表2

可以看到,如表2所示的描述性段落更有益于用户理解查询实体词的具体语境及语义信息。然而,Freebase和WordNet的描述性段落信息都是由人工进行编辑的,这会导致大数据下对实体进行段落描述的局限性并耗费大量的时间与人力。因此,如何设计一个高效的实体与描述性段落自动链接方法是大数据时代知识库构建所迫切亟需的任务。

从表2的返回结果中还可以看到,描述性内容并不一定要包含查询实体词,而只需包含一些相关词对实体进行多方面地描述即可。因此,为了解决此问题,实体与段落链接方法需要从两个方面着手:1、从给定的一段描述性段落中捕捉文本的主题信息;2、找到和实体相关的重要描述性内容。比较传统的方法多是基于主题模型方法抽取段落的主题信息,如狄利克雷分布(LDA)及概率潜语义分析(PLSA)等。这些方法的普遍问题是抽取的主题信息是基于文档层的词共现信息获得的,受社交媒体中短文本特征表示的高稀疏性影响比较严重,而且丢失了文本中的词序信息。

近些年,随着深度神经网络的兴起,一些研究者尝试采用深度模型及词向量化表示方法学习描述性段落的深层隐式语义特征表示以解决实体与段落的链接问题。然而,现有的基于深度模型方法在解决描述性段落的语义特征抽取时,只是简单地把整个段落看成一个长句进行处理或直接把多个语句进行加权平均得到语义向量。而实际上,段落中的句子顺序也是具有语义逻辑关系的。

另一方面,捕捉段落中与实体密切相关的描述性线索也是非常重要的。如上述表2返回结果中的描述性段落虽然没有直接包含查询实体词“Washington D.C.”,但是却包含了很多相关的词汇或短语,如:“George Washington”、“United States”及“capital”等。因此,对实体进行向量化特征表示有助于实体与描述性段落的链接工作。

发明内容

针对上述技术问题,本发明的主要目的在于提供一种基于层次卷积网络的实体与段落链接方法,从而能够将互联网中的实体词与描述性段落无需人工参与即自动链接,有助于大数据下的语义知识库的构建。

为了实现上述目的,本发明提供了一种基于层次卷积网络的实体与段落链接方法,包括以下步骤:

利用卷积神经网络通过词向量化表示转化成句子向量化表示,所述卷积网络有利于抽取查询实体在描述段落中的重要线索;

所述句子向量化表示再次经过卷积神经网络并考虑所述句子次序信息得到段落向量化表示;

所述句子向量化表示和所述段落向量化表示通过Softmax输出,借助已有实体作为监督信息进行所述卷积神经网络模型的训练;

同时考虑所述段落语义向量特征与实体语义向量特征之间的pair-wise相似度信息进一步改善所述卷积神经网络模型的训练;

给定一个测试描述段落,利用所述训练好的神经网络模型进行深层语义特征抽取得到所述测试段落的向量化表示,然后基于此语义表示经过Softmax输出可直接链接到目标实体上。

本发明的实体与段落链接方法将实体与段落的链接中的特征学习问题划分为四个层次,分别为:原始文本段落通过词向量化表示得到的特征矩阵层;通过卷积神经网络得到的句子向量化表示特征层;通过卷积神经网络得到的段落向量化表示特征层;利用词向量查表法得到实体词的向量化表示特征层。通过卷积特征网络和词向量查表,本发明的方法在两个文本数据集上实体与段落链接方法的精度值ACC显著优越于其他对比方法,且相对于最好的对比方法二,本发明方法在两个数据集上的精度值分别提升了12.4%和16.76%。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510372795.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top