[发明专利]一种基于语义依存图的关系提取方法有效
申请号: | 201811522442.7 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109783799B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 姜明;何杰成;张旻;汤景凡;滕海滨 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/08;G06F16/36 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 依存 关系 提取 方法 | ||
本发明公开了一种基于语义依存图的关系提取方法。本发明包括如下步骤:步骤(1)训练双向循环卷积注意神经网络;步骤(2)读取语句数据;步骤(3)将数据输入训练好的深度神经网络,输出数据与各个关系的相关度。本发明通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。通过从语义依存图中提出来的实体对之间的最短路径中提取句子的特征信息。本发明通过引入语义依存图和双向循环卷积注意网络进行关系提取,通过语义依存的分析并提取的实体间最短路径,可以有效的降低远程监督学习带来的噪声数据影响,从而提高了关系提取的准确率。
技术领域
本发明涉及关系提取方法,具体来讲是一种基于语义依存图的关系提取方法,属于自然语言处理技术领域。
背景技术
在自然语言处理技术领域中,最重要的任务是分析人类话语并能理解。在这个大领域中有一项十分重要的任务是如何构建知识图谱。在建立知识图谱中,如果通过人类一句话一句话的进行分析并提取实体与关系,这是十分浪费人力的。因此,我们需要通过引入深度神经网络训练模型,让模型自动提取出句子中实体的关系。目前,主要的关系提取方法有无监督学习,监督学习和远程监督学习。由于,无监督学习效果一般,监督学习效果好,但是需要大量的训练数据,标记训练数据是一项浪费资源的工作。我们采用远程监督学习,但是,在该方法中会引入大量的噪声数据,因此,我们需要改进方法降低噪声数据对模型的影响。
发明内容
本发明针对使用远程监督学习方式进行关系提取中的噪声问题,公开一种通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。
为实现以上的技术目的,本发明将采用以下的技术方案:
步骤(1)训练双向循环卷积注意神经网络;
步骤(2)读取语句数据;
步骤(3)将数据输入训练好的深度神经网络,输出数据与各个关系的相关度;
步骤(1)包括如下步骤:
步骤A对输入数据进行语义分析,提取实体对的最短路径,并编码整理序列化;所述的最短路径包含词和依赖关系边;
步骤B构建双向循环卷积注意神经网络,确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式;
步骤C特征提取,将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中,提取出每个组的特征;
步骤D对于步骤C中的每个组,计算组的特征与结果候选集中每个关系的相关度,将相关度最大的作为该组提取的结果;
步骤E利用交叉熵损失函数计算结果与标签的误差,并调整双向循环卷积注意神经网络中的参数。
步骤A具体为:首先,将训练数据按照标签分组;其次,使用NLP分析工具将自然语言句子进行语义依存分析,得到相应的语义依存图;根据自然语言句子中的实体对和得到的语义依存图,使用改进后的最短路径迪杰斯特拉算法,提取出多条实体对之间的最短路径;
所述的改进后的最短路径迪杰斯特拉算法,具体是在原算法基础上加入一个PATH数据表记录每个图中节点在最短路径中的前一跳是哪个节点。
步骤B中,所述的双向循环卷积注意神经网络由BCNN网络架构改进实现,首先由一个双向循环网络对最短路径进行编码,每条最短路径循环次数限制为15次;再使用卷积网络与池化层提取编码后的最短路径的特征,卷积网络中采用200个过滤器;然后用注意力网络计算每条最短路径在当前组中的权重。
所述的双向循环卷积注意神经网络采用远程监督学习训练,网络自底向上的流程包括:
第一层:对每条最短路径中的词和依赖关系边,分别使用双向循环卷积注意神经网络进行编码,编码的过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811522442.7/2.html,转载请声明来源钻瓜专利网。