[发明专利]基于启发式证据句抽取及实体表示增强的文档级关系抽取方法及系统在审
申请号: | 202211212489.X | 申请日: | 2022-09-29 |
公开(公告)号: | CN115526162A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 卢记仓;祝涛杰;周刚;李珠峰;王凌;兰明敬;张凯翔;卢银鹏 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 启发式 证据 抽取 实体 表示 增强 文档 关系 方法 系统 | ||
1.一种基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,包含如下内容:
根据预定义启发式规则选取原文档中与目标实体对头尾实体存在交互的提及,将实体提及所在句作为目标实体对的证据句,并将证据句按照原文档顺序构造成伪文档;
利用预训练语言模型学习伪文档中与目标实体对相关的上下文信息;
利用目标实体对头尾实体交互的提及和相关上下文,学习不同实体对中相同实体的不同实体表示;
针对不同实体表示,利用激活函数来预测目标实体对关系类型。
2.根据权利要求1所述的基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,根据实体对中头尾实体不同提及之间的交互来设置预定义启发式规则,利用预定义启发式规则来提取原文档中句内和句间实体之间的交互,依据交互来选取目标实体对证据句。
3.根据权利要求1或2所述的基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,预定义启发式规则包含但不限于:句内交互、桥实体交互、邻接交互、组合交互及默认交互,其中,句内交互为目标实体对头尾实体提及同一证据句中,桥实体交互为目标实体对中头尾实体对应提及出现在不同证据句中并通过证据句中的共同桥实体进行联系,邻接交互为证据句中目标实体对头尾实体提及与其前后句中实体提及的联系,组合交互为句内交互、桥实体交互和邻接交互三者组合或三者中任两个组合,默认交互为目标实体对中头实体提及所在句子集合及尾实体提及所在句子集合进行组合作为证据句的实体联系。
4.根据权利要求1所述的基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,依据证据句构造伪文档时,依据相同证据句的实体对组合并按原文档顺序来进行伪文档构造。
5.根据权利要求1所述的基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,预训练语言模型中,通过编码器对输入的伪文档进行编码来获取伪文档中每个单词的上下文嵌入表示,并利用注意力机制调整模型输出中目标实体对相关上下文。
6.根据权利要求1或5所述的基于启发式证据句抽取及实体表示增强的文档级关系抽取方法,其特征在于,预训练语言模型的结构采用BERT模型结构,并利用人工标注数据集DocRED对BERT模型结构进行预训练。
7.一种基于启发式证据句抽取及实体表示增强的文档级关系抽取系统,其特征在于,包含:证据句提取模块、编码模块、实体增强模块和关系预测模块,其中,
证据句提取模块,用于根据预定义启发式规则选取原文档中与目标实体对头尾实体存在交互的提及,将实体提及所在句作为目标实体对的证据句,并将证据句按照原文档顺序构造成伪文档;
编码模块,用于利用预训练语言模型学习伪文档中与目标实体对相关的上下文信息;
实体增强模块,用于利用目标实体对头尾实体交互的提及和相关上下文,学习不同实体对中相同实体的不同实体表示;
关系预测模块,用于针对不同实体表示,利用激活函数来预测目标实体对关系类型。
8.一种电子设备,包含存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1~6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211212489.X/1.html,转载请声明来源钻瓜专利网。