[发明专利]一种实体关系抽取方法有效
申请号: | 201810455902.2 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108733792B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 雷凯;陈道源;沈颖 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 胡佳炜;郭燕 |
地址: | 518055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 抽取 方法 | ||
1.一种实体关系抽取方法,其特征在于,包括:
将预处理信息输入到词语序列神经网络抽取第一类的抽取关系;其中所述预处理信息包括若干个句子;
将所述预处理信息输入到实体序列神经网络抽取第二类的抽取关系;
根据所述第一类的抽取关系调整所述实体序列神经网络的参数,和根据所述第二类的抽取关系调整所述词语序列神经网络的参数;
将所述预处理信息输入到参数调整后的所述词语序列神经网络抽取第三类的抽取关系;
将所述预处理信息输入到参数调整后的所述实体序列神经网络抽取第四类的抽取关系;
将所述第三类的抽取关系和所述第四类的抽取关系加权集成以获取最终的抽取关系。
2.如权利要求1所述的方法,其特征在于,将所述预处理信息输入到所述词语序列神经网络抽取第一类的抽取关系,包括:
基于知识图谱查询所述预处理信息中的每个词语所指代的实体,根据所述实体在所述预处理信息中的先后顺序,将所述预处理信息转化为实体序列;
对所述预处理信息进行分词,得到若干个词语;根据这些词语在所述预处理信息中的先后顺序,将所述预处理信息转化为词语序列;
将所述词语序列通过词语的分布式表示方法训练得到词语序列向量;
按照各个词语与所述实体序列中每个实体的相对距离编码得到位置特征向量,将所述位置特征向量与词语分布式表示向量拼接到所述词语序列向量;
利用编码器对所述词语序列向量进行编码;
通过句子层面的注意力机制获得注意力加权后的各个句子的向量化表示;
利用Softmax分类器将所述向量化表示作为模型输入,输出所述预处理信息表示的各种关系及各自关系的概率,作为第一类的抽取关系。
3.如权利要求1所述的方法,其特征在于,将所述预处理信息输入到所述实体序列神经网络抽取第二类的抽取关系,包括:
基于知识图谱查询所述预处理信息中的每个词语所指代的实体,根据所述实体在所述预处理信息中的先后顺序,将所述预处理信息转化为实体序列;
对所述实体序列通过实体的分布表示方法训练得到实体序列向量;
按照各个实体间相对距离编码得到位置特征向量,将所述位置特征向量拼接到所述实体序列向量;
利用编码器对所述实体序列向量进行编码;
通过句子层面的注意力机制获得注意力加权后的各个句子的向量化表示;
利用Softmax分类器将所述向量化表示作为模型输入,输出所述预处理信息表示的各种关系及各自关系的概率,作为第五类的抽取关系;
根据所述第五类的抽取关系获取所述第二类的抽取关系。
4.如权利要求3所述的方法,其特征在于,所述利用编码器对所述实体序列向量进行编码,包括:
通过链指候选所述实体和实体层面的注意力机制获得句子的隐向量表示;
利用双向GRU组件将所述实体序列向量与所述隐向量表示进行向量加权并编码。
5.如权利要求3所述的方法,其特征在于,根据所述第五类的抽取关系获取所述第二类的抽取关系包括:
将所述第五类的抽取关系按后验概率正则化的方式映射到规则子空间,获得所述第二类的抽取关系;所述规则子空间是指基于概率软逻辑设计的关系类型规则。
6.如权利要求1所述的方法,其特征在于,根据所述第一类的抽取关系调整所述实体序列神经网络的参数,和根据所述第二类的抽取关系调整所述词语序列神经网络的参数,包括:
以远监督标签作为硬标签;
将所述第一类的抽取关系作为所述实体序列神经网络的软标签,调整所述实体序列神经网络的参数;
将所述第二类的抽取关系作为所述词语序列神经网络的软标签,调整所述词语序列神经网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810455902.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网络事件检测方法
- 下一篇:一种面向关系数据库的本体模型构造方法及系统