[发明专利]关系抽取模型的训练方法、关系抽取方法、设备及介质在审
申请号: | 202011199788.5 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112307170A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王旭仁;江钧;汪秋云;杨杰;姜政伟;刘宝旭 | 申请(专利权)人: | 首都师范大学;中国科学院信息工程研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F21/55;G06F40/211;G06F40/295;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李莎 |
地址: | 100037 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 抽取 模型 训练 方法 设备 介质 | ||
1.一种关系抽取模型的训练方法,其特征在于,所述关系抽取模型包括:特征转换器、句子实例选择器和关系分类器,所述方法包括:
对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征;其中,所述关系抽取数据集包括:多个文本语料,每个句子实例为预先标注有实体关系的威胁情报文本;
通过所述特征转换器,对所述每个句子实例的初始特征进行特征转换,得到所述每个句子实例的句子特征;
通过所述句子实例选择器,根据所述每个句子实例的句子特征,从所述多个句子实例中选择目标句子实例;
通过所述关系分类器对所述目标句子实例进行关系分类,得到所述目标句子实例的实体关系分类结果;
根据所述实体关系分类结果和预先标注的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型,所述目标关系抽取模型包括:训练优化后的所述句子实例选择器和训练优化后的关系分类器。
2.根据权利要求1所述的训练方法,其特征在于,所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理之前,所述方法还包括:
根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例。
3.根据权利要求2所述的训练方法,其特征在于,所述根据预先构建的威胁情报的实体关系知识库,采用远程监督方法,对多个威胁情报文本进行实体关系的远程监督标注,得到所述多个句子实例之前,所述方法还包括:
根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库;其中,每个威胁情报文本为非结构化的威胁情报文本。
4.根据权利要求3所述的训练方法,其特征在于,所述根据预先确定的威胁情报的实体关系列表,从开源结构化数据中构建所述实体关系知识库之前,所述方法还包括:
根据预先获取的开源威胁情报报告以及预设的威胁情报实体规范,确定威胁情报实体关系;
根据所述威胁情报实体关系进行筛选,并根据筛选后的所述威胁情报实体关系,构建所述威胁情报的实体关系列表。
5.根据权利要求1所述的训练方法,其特征在于,所述每个句子实例的初始特征包括:词向量、位置向量和实体类型向量;
所述对关系抽取数据集中的每个文本语料中的多个句子实例进行特征处理,得到每个句子实例的初始特征,包括:
采用预设的词向量语言模型,对所述每个句子实例进行特征处理,得到所述每个句子实例的词向量;
根据所述每个句子实例中每个词与所述每个句子实例中实体的相对距离,得到所述每个句子实例的位置向量;
采用预设的标注方法,对所述每个句子实例中的实体类型进行标注,得到所述每个句子实例中的实体类型向量。
6.根据权利要求5所述的训练方法,其特征在于,所述采用预设的标注方法,对所述每个句子实例中的实体类型进行标注,得到所述每个句子实例中的实体类型向量,包括:
采用所述预设的标注方法,对所述每个句子实例中各个词是否属于预设的实体类型,以及属于所述预设的实体类型时,对应词在所述每个句子实例中的相对位置进行标注,得到所述每个句子实例中的实体类型向量。
7.根据权利要求1-6中任一所述的训练方法,其特征在于,所述实体关系分类结果表示为:识别到的实体关系,所述预先标注的实体关系表示为:预设实体关系的标注信息;
所述根据所述实体关系分类结果,和预先标注的实体关系,对所述句子实例选择器和所述关系分类器的参数进行训练优化,得到目标关系抽取模型,包括:
根据所述识别到的实体关系,和所述预设实体关系的标注信息,采用预设的反馈函数计算所述目标句子实例的质量指标;
根据所述质量指标,计算所述句子实例选择器对应的策略函数的调整误差;
根据所述调整误差,对所述策略函数的参数进行调整,使得所述句子实例选择器基于参数调整后的所述策略函数进行句子实例的选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学;中国科学院信息工程研究所,未经首都师范大学;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011199788.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于非饱和土三轴实验的双模法制样及脱模
- 下一篇:上肢康复设备