[发明专利]一种基于实体关系抽取的领域关键技术体系构建方法在审
申请号: | 202111561236.9 | 申请日: | 2021-12-16 |
公开(公告)号: | CN114169337A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 朱江;程燕;张振海 | 申请(专利权)人: | 同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/237 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 关系 抽取 领域 关键技术 体系 构建 方法 | ||
1.一种基于实体关系抽取的领域关键技术体系构建方法,其特征在于,所述方法包括以下步骤:
步骤A构建基于单句及多句片段的“关键技术”实体关系抽取模型;
步骤B基于生成的“关键技术”实体关系抽取模型,联合片段相似检索、实体消歧技术进行领域关键技术体系的抽取构建。
2.根据权利要求1所述的基于实体关系抽取的领域关键技术体系构建方法,其特征在于,步骤A中包括两个子任务,其中“关键技术”术语名称的实体识别采用bert+bilstm+crf,是否为“关键技术”关系判断采用bert+gru。
3.根据权利要求1或2所述的基于实体关系抽取的领域关键技术体系构建方法,其特征在于,所述步骤A具体包括:
选出部分技术文献构建训练数据集,把文献全文分割为多个句群片段,筛选含有完整“关键技术”关系和实体的片段,以及筛选不包含“关键技术”关系或关键技术术语实体缺失的。
4.根据权利要求3所述的基于实体关系抽取的领域关键技术体系构建方法,其特征在于,
对所述筛选出的含有完整“关键技术”关系和实体的片段,标注数据集为实体标签,并标注关系为正例;
对句群片段中筛选出的不包含“关键技术”关系,或关键技术术语实体缺失的,无需标注实体标签,并标注关系为负例。
5.根据权利要求4所述的基于实体关系抽取的领域关键技术体系构建方法,其特征在于,对标注数据集分别训练基于bert+gru的“关键技术”关系判断模型、基于bert+bilstm+crf的“关键技术”实体识别模型。
6.根据权利要求1所述的基于实体关系抽取的领域关键技术体系构建方法,其特征在于,所述步骤B具体包括:
步骤B1选出领域技术文献,利用片段相似检索技术抽取出关键技术相关句群片段,作为候选片段集;
步骤B2基于生成的关系判断模型对抽取句群片段进行判断,关系为“关键技术”的片段运用生成的实体识别模型进行A类实体和B类实体抽取,将抽取到的A类实体和B类实体形成父子关系保存;
步骤B3通过片段相似检索技术从全文中抽取“B类实体”关键技术相关的句群片段集,运用“关键技术”实体关系抽取模型,抽取“B类实体”包含的关键技术,逐级递归抽取,保存所有父子关系;
步骤B4根据领域先验知识和已标注数据中出现的实体,构建领域实体词典,对领域实体词典中的同义词建立映射关系,并设置候选同义词编辑距离阈值、公共子节点数量阈值,用于建立词典外相似实体的同义映射关系;
步骤B5按照同义词词典、文本编辑距离阈值、公共子节点数量阈值合并抽取得到实体子树节点,逐步形成关键技术体系树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司,未经同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111561236.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种马达转子自动理线装置
- 下一篇:一种山楂加工用的批量去核装置