[发明专利]用于航空领域的知识元抽取方法在审
申请号: | 202210375009.5 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114764566A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 董洪飞;贺薇;陶剑;高魁;高龙;武铎;刘俊;王孝天;安然;何柳 | 申请(专利权)人: | 中国航空综合技术研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06F40/151;G06N3/04;G06N3/08;G06F40/30;G06F40/211;G06F40/242;G06Q50/30 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 王冬杰 |
地址: | 100028 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 航空 领域 知识 抽取 方法 | ||
本发明提供一种用于航空领域的知识元抽取方法,具体实施步骤包括:将航空领域的结构化标注数据输入到Bert模型,输出结构化标注数据的特征向量;将输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤;将得到的字向量输入到层次归一化层,得到标准化的字向量;利用高层强化学习过程对得到的每个字向量进行解码,按句识别字向量中的关系触发词;建立面向航空领域长实体的头尾指针模型,得到预测出的关系和尾实体起止位置序列;将预测出的实体输出后,根据实体的标签信息进行就近原则以及匹配方式进行匹配。本发明面向航空领域,基于郑码、五笔、拼音和笔画等特征融入的方式,与Bert输出的向量相结合,提升了准确率与召回率。
技术领域
本发明涉及开放关系抽取技术领域,特别涉及一种用于航空领域的知识元抽取方法。
背景技术
信息抽取(IE)是自然语言处理(NLP)的一个重要领域,旨在从非结构化文本中提取结构信息。关系抽取作为信息抽取中一项重要任务,关注实体之间的关系抽取。一个完整的关系抽取系统由一个命名实体识别器组成,用于从文本中识别命名实体(例如人员、组织、位置),一个实体链接器用于将实体链接到现有知识图谱,以及一个关系分类器用于根据给定上下文确定实体之间的关系。
现有的关系抽取技术中,是针对一些关系标注了一份关系抽取数据集之后,来抽取出一些有价值的三元组,如果换一个场景,原先的模型几乎抽取不到三元组,需要重新定义关系类型(schema)并标注数据集,而且这个标注过程相当耗时。
因此,具有通用性的开放关系抽取模型更具有实用价值,开放关系抽取模型无需在新的业务场景标注新的关系类型和数据,可直接抽取三元组经过属性归一和实体对齐形成知识元,知识元代表了一个实体的属性和相应的属性值或关系和相应的关系值,由主实体-关系-尾实体三部分组成的三元组;也可通过统计分析这些三元组的关系词和实体类型初步得到知识体系schema,用于快速构建限定关系抽取的数据标注方案。
此外,有研究显示低频的关系也是有意义的,只要抽取结果是正确的,一个高频的关系和低频的关系的回答方式并没有差异,因此只要能保证开放关系抽取的准确率达到一定水平,相较于限定关系抽取而言则具有不可替代的优势。
现有的针对开放关系抽取的技术大多受限于高质量标注数据的匮乏、模型抽取特征能力不够或生成的关系、难以解决一对多的问题、以及实体匹配问题。然而在实际应用中,高质量的标注数据通常需要花费大量时间,这些技术缺陷导致现有的技术不能很好的满足实际需要。
面对复杂且多样化的航空百科语料,本发明公开一种具有准确率和召回率的开放知识元抽取方法,除了识别文本中主副实体外,由模型自主判断文本中可作为关系的部分,形成三元组。
发明内容
针对现有技术存在的问题,本发明提供一种用于航空领域的知识元抽取方法,利用多特征融合方法,并采用分层强化学习的框架,利用融合Bert与关系位置特征的实体关系抽取方法,通过指针网络对得到的每个字向量进行解码,按句识别字向量中的关系触发词,并配合分层强化学习过程,针对不同的识别结果对模型参数进行不同的参数优化,从而解决了头实体不全以及一个约束对应多个知识元的问题,提高了抽取三元组的召回率和准确率。
本发明提供了一种用于航空领域的知识元抽取方法,具体步骤如下:
S1、模型预训练:将航空领域的结构化标注数据输入到Bert模型,得到微调预训练的Bert模型,并输出结构化标注数据的特征向量
S2、特征融合:将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤:
S21、利用官方发布的汉字—郑码映射表将非结构化的文本数据依字转换为对应的郑码序列;
S22、利用Word2Vec模型得到每个字的郑码特征向量,所述郑码特征向量的具体表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210375009.5/2.html,转载请声明来源钻瓜专利网。